数据提取 - 需要想法

发布于 2024-12-11 15:07:02 字数 700 浏览 4 评论 0原文


假设有 n 行文本类似于以下内容:

  • “Sony KDL46NX720 BRAVIA 46” 3D LED 背光高清电视 - 1080p、1920 x 1080、16:9、120Hz、HDMI、USB、WiFi Ready » 在 Tiger 售价 1148.99 美元直接”

  • "三星 NV40 10.5 MP 数码相机 - 银色 - 3 倍变焦镜头 » 售价 64.99 美元,售价 64.99 美元eBay"

  • “Gateway NV57H27u 15.6 英寸笔记本电脑,英特尔酷睿 i3-2310M (2.10GHz),4GB DDR3 内存,500GB 硬盘,DVD 超级多驱动器,Windows 7 Home Premium 64 -位(粉色)- LX.WZF02.002 » 用于Buy.com 售价 399.99 美元”

I想要解析这些字符串并将它们分类为“电视、相机、笔记本电脑”等。

文本属性可能相似也可能不相似。


如何全面做到这一点?

我应该使用什么代码/工具?

什么语言?

我不想进行关键字搜索。 可以使用类/属性逻辑对该字符串进行分类吗?

我可以使用 Protege 构建类/子类层次结构吗?


我对数据挖掘这个领域完全陌生。所以请原谅我的无知!

提前致谢。


Consider there are n rows of text similar to the ones below:

  • "Sony KDL46NX720 BRAVIA 46" 3D LED Backlit HDTV - 1080p, 1920 x 1080, 16:9, 120Hz, HDMI, USB, WiFi Ready » for $1148.99 at Tiger Direct"

  • "Samsung NV40 10.5 MP Digital Camera - Silver - 3x Zoom Lens » for $64.99 at eBay"

  • "Gateway NV57H27u 15.6" Notebook, Intel Core i3-2310M (2.10GHz), 4GB DDR3 Memory, 500GB HDD, DVD Super Multi-Drive, Windows 7 Home Premium 64-Bit (Pink) - LX.WZF02.002 » for $399.99 at Buy.com"

I would like to parse these strings and classify each of them as "TV, camera, laptop" etc.

The text attributes may or may not be similar.


How can this be comprehensively done?

What code/tools should I use?

What language?

I do not want to do a keyword search.
Can this strings be classified using class/attribute logic?

Can I use Protege to build the class/sub-class hierarchy?


I am totally new to this field of data-mining. So excuse my ignorance!

Thanks in advance.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

余罪 2024-12-18 15:07:02

正则表达式,甚至 JavaScript 都可以完成这项工作

编辑:

   var criteria = {
      camera : {
         identifier : /.*camera.*/ ,
         resolution : /.*(\d+)\s*x\s*(\d*).*/ ,
         value : /.*$(\d+).*/ ,
         ...
      },
      notebook : {
         identifier : /.*notebook.*/ ,
         ram : /.*(d+)GB\s*(DDR.).*/
         ...
      }
      ...
   }

然后编写一个简单的引擎,使用此结构来分析每一行

编辑2:

这根本不容易,因为您必须提供某种知识数据库,但这是可能的,您可以用这样的页面来提供它。

http://en.wikipedia.org/wiki/List_of_CPU_power_dissipation

但适用于多个人或者超过一天,具体取决于您想要代码的智能程度。

Regular expresions, even a javascript can do the work

EDIT:

   var criteria = {
      camera : {
         identifier : /.*camera.*/ ,
         resolution : /.*(\d+)\s*x\s*(\d*).*/ ,
         value : /.*$(\d+).*/ ,
         ...
      },
      notebook : {
         identifier : /.*notebook.*/ ,
         ram : /.*(d+)GB\s*(DDR.).*/
         ...
      }
      ...
   }

Then write a simple engine that use this structure to analize each line

EDIT 2:

This is not easy at all because you heve to feed some sort of knowlege database, but is posible, you can feed this with pages like this.

http://en.wikipedia.org/wiki/List_of_CPU_power_dissipation

but is work for more than one person or for more than one day depending on how much intelligence you want for your code.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文