用于文本分析的算法或库，特别是：文本中的主导词、短语和文本集合

发布于 2024-07-07 18:50:47 字数 447 浏览 16 评论 0原文

我正在开展一个项目，需要分析一页文本和文本页面集合以确定主导词。我想知道是否有一个库（更喜欢 c# 或 java）可以为我处理繁重的工作。如果没有，是否有一个或多个算法可以实现我的以下目标。

我想要做的类似于根据您在网络上找到的 url 或 rss feed 构建的文字云，但我不想要可视化。它们一直被用来分析总统候选人的演讲，以了解主题或最常用的词语是什么。

复杂的是，我需要对数千个简短文档以及这些文档的集合或类别执行此操作。

我最初的计划是解析文档，然后过滤常见单词 - of、the、he、she 等。然后计算剩余单词在文本（以及总体集合/类别）中出现的次数。

问题是，将来我想处理词干、复数形式等。我还想看看是否有一种方法可以识别重要的短语。（不是对单词进行计数，而是对短语进行 2-3 个单词的计数）

任何有帮助的策略、库或算法的指导都将受到赞赏。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

喵星人汪星人 2024-07-14 18:50:47

您正在做的事情的一种选择是术语频率到逆文档频率，或 tf-idf。在此计算下，最强的项将具有最高的权重。在这里查看是否：http://en.wikipedia.org/wiki/Tf-idf

另一种选择是使用类似朴素贝叶斯分类器的东西，使用单词作为特征，并找到文本中最强的特征来确定文档的类别。这与最大熵分类器的工作原理类似。

就执行此操作的工具而言，最好的入门工具是 NLTK，这是一个包含大量文档和教程的 Python 库：http ://nltk.sourceforge.net/

对于 Java，请尝试 OpenNLP：http://opennlp.sourceforge.net /

对于短语 stuff，请考虑我提供的第二个选项，即使用二元组和三元组作为特征，甚至作为 tf-idf 中的术语。

祝你好运！

回复收藏 0 原文

爱格式化 2024-07-14 18:50:47

对罗伯特·埃尔韦尔的答案进行补充：

词干和折叠词形。英语中一个简单的方法是对小写单词形式使用Porter Stemming。
“常用词”的术语是“停用词”或“停用词列表”。
按照建议阅读 NLTK 书籍将很好地解释许多此类介绍性问题。
您必须解决的一些问题包括解析句子（以便您的二元词组和 n 元词组短语不会跨越句子边界）、将句子拆分为标记，以及决定如何处理所有格形式等。

这些东西都不是明确的，也没有“正确答案”。另请参阅“nlp”和“自然语言”SO 标签。

祝你好运！这是一个不平凡的项目。

回复收藏 0 原文

北音执念 2024-07-14 18:50:47

好吧。现在您已经有了一个包含文本的文档和一个文档集合（语料库）。有多种方法可以做到这一点。

我建议使用 Lucene 引擎 (Java) 来索引您的文档。 Lucene 支持一种数据结构（索引），在其中维护许多文档。文档本身是一种数据结构，可以包含“字段”，例如作者、标题、文本等。您可以选择哪些字段被索引，哪些字段不被索引。

将文档添加到索引微不足道。 Lucene 也是为了速度而构建的，并且可以出色地扩展。

接下来，您想要找出术语和频率。由于 lucene 已经在索引过程中为您计算了这一点，因此您可以使用 docFreq 函数并构建您自己的术语频率函数，或者使用 IndexReader 类的 getTermFreqVectors 函数来获取术语（及其频率）。

现在由您决定如何对其进行排序以及您想要使用什么标准来过滤您想要的单词。要弄清楚关系，您可以使用 wordnet 开源库的 Java API。要对单词进行词干提取，请使用 Lucene 的 PorterStemFilter 类。短语重要性部分比较棘手，但是一旦您了解了这一步，您就可以搜索有关如何将 n-gram 搜索集成到 Lucene 中的提示（提示）。

祝你好运！

回复收藏 0 原文