当前位置：文江博客话题详情

数据提取 - 需要想法

发布于 2024-12-11 15:07:02 字数 700 浏览 8 评论 0原文

假设有 n 行文本类似于以下内容：

“Sony KDL46NX720 BRAVIA 46” 3D LED 背光高清电视 - 1080p、1920 x 1080、16:9、120Hz、HDMI、USB、WiFi Ready » 在 Tiger 售价 1148.99 美元直接”
"三星 NV40 10.5 MP 数码相机 - 银色 - 3 倍变焦镜头 » 售价 64.99 美元，售价 64.99 美元eBay"
“Gateway NV57H27u 15.6 英寸笔记本电脑，英特尔酷睿 i3-2310M (2.10GHz)，4GB DDR3 内存，500GB 硬盘，DVD 超级多驱动器，Windows 7 Home Premium 64 -位（粉色）- LX.WZF02.002 » 用于Buy.com 售价 399.99 美元”

I想要解析这些字符串并将它们分类为“电视、相机、笔记本电脑”等。

文本属性可能相似也可能不相似。

如何全面做到这一点？

我应该使用什么代码/工具？

什么语言？

我不想进行关键字搜索。可以使用类/属性逻辑对该字符串进行分类吗？

我可以使用 Protege 构建类/子类层次结构吗？

我对数据挖掘这个领域完全陌生。所以请原谅我的无知！

提前致谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

余罪 2024-12-18 15:07:02

正则表达式，甚至 JavaScript 都可以完成这项工作

编辑：

   var criteria = {
      camera : {
         identifier : /.*camera.*/ ,
         resolution : /.*(\d+)\s*x\s*(\d*).*/ ,
         value : /.*$(\d+).*/ ,
         ...
      },
      notebook : {
         identifier : /.*notebook.*/ ,
         ram : /.*(d+)GB\s*(DDR.).*/
         ...
      }
      ...
   }

然后编写一个简单的引擎，使用此结构来分析每一行

编辑2：

这根本不容易，因为您必须提供某种知识数据库，但这是可能的，您可以用这样的页面来提供它。

http://en.wikipedia.org/wiki/List_of_CPU_power_dissipation

但适用于多个人或者超过一天，具体取决于您想要代码的智能程度。

Regular expresions, even a javascript can do the work

EDIT:

   var criteria = {
      camera : {
         identifier : /.*camera.*/ ,
         resolution : /.*(\d+)\s*x\s*(\d*).*/ ,
         value : /.*$(\d+).*/ ,
         ...
      },
      notebook : {
         identifier : /.*notebook.*/ ,
         ram : /.*(d+)GB\s*(DDR.).*/
         ...
      }
      ...
   }

Then write a simple engine that use this structure to analize each line

EDIT 2:

This is not easy at all because you heve to feed some sort of knowlege database, but is posible, you can feed this with pages like this.

http://en.wikipedia.org/wiki/List_of_CPU_power_dissipation

but is work for more than one person or for more than one day depending on how much intelligence you want for your code.

回复收藏 0 原文

~没有更多了~