用于比较文档语义相似度的包(LSA、TF-IDF、余弦相似度、语言模型)

发布于 2024-08-07 18:01:11 字数 609 浏览 1 评论 0原文

我正在寻找一个包(任何编程语言),我可以在包含 50 个文档的语料库上使用该包,以使用术语频率-逆文档频率等各种指标来执行文档间相似性测试(TF-IDF),霍加皮最佳匹配 (Okapi-BM25),语言模型 (一系列单词的概率分布), LSA 等。

结果,我想要文档相似度矩阵(即 doc1doc2 等的 x% 相似)。这是用于研究目的,而不是用于生产。我特别想要文档相似度矩阵,因为我想将其与人类评分相关联。

I'm looking for a package (any programming language) that I can use on a corpus of 50 documents to perform interdocument similarity testing using various metrics like term frequency-inverse document frequency (TF-IDF), Okapi best matching (Okapi-BM25), language models (probability distributions over a sequence of words), LSA, etc.

As the result, I want a document similarity matrix (i.e. doc1 is x% similar to doc2 etc.). This is for research purposes, not for production. I specifically want the document similarity matrix as I want to correlate this with human ratings.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

寄风 2024-08-14 18:01:11

如果您了解 python,您可以使用 http://www.nltk.org - 它拥有您需要的一切,加号是文档和Python语言

If you know python, you can use http://www.nltk.org - it has everything you need, and plus is the documentation and the python language

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文