数据提取 - 需要想法
假设有 n 行文本类似于以下内容:
“Sony KDL46NX720 BRAVIA 46” 3D LED 背光高清电视 - 1080p、1920 x 1080、16:9、120Hz、HDMI、USB、WiFi Ready » 在 Tiger 售价 1148.99 美元直接”
"三星 NV40 10.5 MP 数码相机 - 银色 - 3 倍变焦镜头 » 售价 64.99 美元,售价 64.99 美元eBay"
“Gateway NV57H27u 15.6 英寸笔记本电脑,英特尔酷睿 i3-2310M (2.10GHz),4GB DDR3 内存,500GB 硬盘,DVD 超级多驱动器,Windows 7 Home Premium 64 -位(粉色)- LX.WZF02.002 » 用于Buy.com 售价 399.99 美元”
I想要解析这些字符串并将它们分类为“电视、相机、笔记本电脑”等。
文本属性可能相似也可能不相似。
如何全面做到这一点?
我应该使用什么代码/工具?
什么语言?
我不想进行关键字搜索。 可以使用类/属性逻辑对该字符串进行分类吗?
我可以使用 Protege 构建类/子类层次结构吗?
我对数据挖掘这个领域完全陌生。所以请原谅我的无知!
提前致谢。
Consider there are n rows of text similar to the ones below:
"Sony KDL46NX720 BRAVIA 46" 3D LED Backlit HDTV - 1080p, 1920 x 1080, 16:9, 120Hz, HDMI, USB, WiFi Ready » for $1148.99 at Tiger Direct"
"Samsung NV40 10.5 MP Digital Camera - Silver - 3x Zoom Lens » for $64.99 at eBay"
"Gateway NV57H27u 15.6" Notebook, Intel Core i3-2310M (2.10GHz), 4GB DDR3 Memory, 500GB HDD, DVD Super Multi-Drive, Windows 7 Home Premium 64-Bit (Pink) - LX.WZF02.002 » for $399.99 at Buy.com"
I would like to parse these strings and classify each of them as "TV, camera, laptop" etc.
The text attributes may or may not be similar.
How can this be comprehensively done?
What code/tools should I use?
What language?
I do not want to do a keyword search.
Can this strings be classified using class/attribute logic?
Can I use Protege to build the class/sub-class hierarchy?
I am totally new to this field of data-mining. So excuse my ignorance!
Thanks in advance.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
正则表达式,甚至 JavaScript 都可以完成这项工作
编辑:
然后编写一个简单的引擎,使用此结构来分析每一行
编辑2:
这根本不容易,因为您必须提供某种知识数据库,但这是可能的,您可以用这样的页面来提供它。
http://en.wikipedia.org/wiki/List_of_CPU_power_dissipation
但适用于多个人或者超过一天,具体取决于您想要代码的智能程度。
Regular expresions, even a javascript can do the work
EDIT:
Then write a simple engine that use this structure to analize each line
EDIT 2:
This is not easy at all because you heve to feed some sort of knowlege database, but is posible, you can feed this with pages like this.
http://en.wikipedia.org/wiki/List_of_CPU_power_dissipation
but is work for more than one person or for more than one day depending on how much intelligence you want for your code.