如何从文本语料库中提取语义相关性

发布于 2024-11-09 11:58:12 字数 456 浏览 9 评论 0原文

目标是评估大型文本语料库中术语之间的语义相关性，例如“警察”和“犯罪”应该比“警察”和“山地”具有更强的语义相关性，因为它们倾向于共同使用。发生在同一上下文中。

我读过的最简单的方法包括提取 IF-IDF 信息来自语料库。

很多人使用潜在语义分析来查找语义相关性。

我遇到过 Lucene 搜索引擎： http://lucene.apache.org/

你认为它可以吗？适合提取IF-IDF吗？

在技术和软件工具方面（首选 Java），您会推荐什么来完成我正在尝试做的事情？

提前致谢！

穆隆

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

青衫负雪 2024-11-16 11:58:12

是的，Lucene 获取 TF-IDF 数据。 Carrot^2 算法是基于 Lucene 构建的语义提取程序的示例。我提到这一点是因为，作为第一步，他们创建了一个相关矩阵。当然，您可能可以轻松地自己构建这个矩阵。

如果您处理大量数据，您可能需要使用 Mahout 来处理较难的线性代数部分。

回复收藏 0 原文

柒夜笙歌凉 2024-11-16 11:58:12

如果你有lucene索引的话就很容易了。例如，要获得相关性，您可以使用简单的公式 count(term1 和 term2)/ count(term1)* count(term2)。其中 count 是搜索结果中的点击次数。此外，您可以轻松计算其他语义指标，例如 chi^2、信息增益。您所需要的只是获取公式并将其从 Query 转换为 count 项

回复收藏 0 原文

~没有更多了~