用于比较文档语义相似度的包(LSA、TF-IDF、余弦相似度、语言模型)
我正在寻找一个包(任何编程语言),我可以在包含 50 个文档的语料库上使用该包,以使用术语频率-逆文档频率等各种指标来执行文档间相似性测试(TF-IDF),霍加皮最佳匹配 (Okapi-BM25),语言模型 (一系列单词的概率分布), LSA 等。
结果,我想要文档相似度矩阵(即 doc1
与 doc2
等的 x
% 相似)。这是用于研究目的,而不是用于生产。我特别想要文档相似度矩阵,因为我想将其与人类评分相关联。
I'm looking for a package (any programming language) that I can use on a corpus of 50 documents to perform interdocument similarity testing using various metrics like term frequency-inverse document frequency (TF-IDF), Okapi best matching (Okapi-BM25), language models (probability distributions over a sequence of words), LSA, etc.
As the result, I want a document similarity matrix (i.e. doc1
is x
% similar to doc2
etc.). This is for research purposes, not for production. I specifically want the document similarity matrix as I want to correlate this with human ratings.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
如果您了解 python,您可以使用 http://www.nltk.org - 它拥有您需要的一切,加号是文档和Python语言
If you know python, you can use http://www.nltk.org - it has everything you need, and plus is the documentation and the python language