如何使用文本挖掘进行文档分析?

发布于 2024-12-08 04:28:14 字数 390 浏览 1 评论 0原文

我想分析给定的文档,以确定该文档是否包含我感兴趣的领域知识的内容或与该领域知识无关的内容。

例如,我有一个包含有关 Android 操作系统的数据的文档,并且我有一个领域本体,其中指定了有关 android 的完整知识。现在我必须找出我的文档在领域本体方面构成的有效内容的百分比是多少。

接近解决方案的一种方法是使用 ANNIE(GATE) 从文档中提取命名实体(NE),并将它们与领域本体实例进行比较,可以找到有效内容的百分比。

  1. 您能建议我使用其他更好的技术吗?
  2. 还有其他可用的开源 API 吗?我尝试过,Lingpipe,但我不能在商业产品中使用它。
  3. 是否有此类可用的开源应用程序?我搜索了很多,但找不到任何应用程序。

I would like to analyze the given document to find out whether the document contains the content of my interested domain knowledge or something not related to the domain knowledge.

For example, I have a document that contains data about Android OS, and I have a domain ontology which specifies the full knowledge about android.Now I have to find out how many percentage of valid content my document poses with regard to domain ontology.

One way of reaching near to the solution is to use ANNIE(GATE) to extract Named Entities(NE) from document and compare them with the instances of domain ontology and the percentage of valid content can be found.

  1. Can you suggest any other better technique that I can use?
  2. Are there any other open source APIs are available? I tried, Lingpipe but I can't use that in a commercial product.
  3. Are there any Open source applications available of this kind? I searched a lot but I could not find any application.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

知足的幸福 2024-12-15 04:28:14

您可以将此视为文档分类问题:

文档检索问题:

在这两种情况下,您可能希望通过提取前 N 个(例如 10 个)一元组(不包括停止点)和具有统计意义的二元组来减少文档中的维度(术语)数量,并将它们用作您的词袋。 >(朴素贝叶斯)或搜索查询(文档检索)。

You could treat this as a document classification problem:

Or a document retrieval problem:

  • In effect you are comparing co-sine similarity between the document and ontology classes. You could use Lucene as the basis of your ontology document storage engine.

In both cases you probably want to reduce the number of dimensions (terms) in your document by extracting top N (e.g 10) unigrams (excluding stops) and statistically significant bigrams and use these as either your bag of words (naive bayes) or search query (document retrieval).

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文