在 Perl 中计算余弦相似度
如何在 Perl 中计算两个文档的余弦相似距离?有几个问题: 1)CPAN中是否已有计算余弦相似距离的模块?或者这个任务是否足够容易编写代码? 2)当我说文档时,我真正的意思是一个“文档”是一个句子,另一个“文档”只是一个关键字列表。公平地说,在计算余弦相似度距离之前,我是否应该分别对每个文档中的所有关键字进行标记、小写和排序?
How do I compute the cosine similarity distance of two documents in Perl? A few questions:
1) Are there already modules for computing the cosine similarity distance in CPAN? Or is this task easy enough to code up?
2) When I say documents, I really mean that one "document" is a sentence and the other "document" is just a list of keywords. To be fair, should I tokenize, lowercase and sort all the keywords in each document respectively before computing the cosine similarity distance?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
那么,在 CPAN 上快速搜索 余弦相似度 会出现 Text::Document。
Well, a quick search for cosine similarity on CPAN brings up Text::Document.