文档相似度

发布于 2024-08-22 12:53:25 字数 1536 浏览 8 评论 0原文

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(4

〃安静 2024-08-29 12:53:25

你看过 Lucene 和 Mahout 吗?

这可能很有用 - 潜在狄利克雷分配与 Lucene 和 Mahout。

Have you had a look at Lucene and Mahout?

This might be useful - Latent Dirichlet Allocation with Lucene and Mahout.

〆凄凉。 2024-08-29 12:53:25

您可能会想到 LSA(潜在语义分析),这是此类问题的一种非常常见的解决方案的问题。

You might be thinking of LSA (Latent Semantic Analysis) which is a very common solution to this kind of problem.

鹤舞 2024-08-29 12:53:25

有点旧,但对于任何仍然感兴趣的人,请看一下这个 博客文章(免责声明:这是我自己的博客)。如果您没有选择任何特定的方法,那么此处描述的算法和链接的代码可能会满足您的需要。

关于Shashikant的评论,余弦相似度可能不是一个好的选择,因为签名的长度与文档的长度成正比。最好使用恒定长度的签名。

A bit old, but for anyone still interested, take a look at this blog post (disclaimer: this is my own blog). The algorithm described there and the linked code will probably do what you need if you don't have your heart set on any specific approach.

Regarding Shashikant's comment, the cosine similarity may not be a good option because the signatures are proportional in length to the documents. Constant length signatures are preferable.

挽清梦 2024-08-29 12:53:25

尝试使用此服务计算两个文档之间的余弦相似度

http://www.scurtu.it/documentSimilarity.html

import urllib,urllib2
import json
API_URL="http://www.scurtu.it/apis/documentSimilarity"
inputDict={}
inputDict['doc1']='Document with some text'
inputDict['doc2']='Other document with some text'
params = urllib.urlencode(inputDict)    
f = urllib2.urlopen(API_URL, params)
response= f.read()
responseObject=json.loads(response)  
print responseObject

Try this service for computing cosine similarity between two documents

http://www.scurtu.it/documentSimilarity.html

import urllib,urllib2
import json
API_URL="http://www.scurtu.it/apis/documentSimilarity"
inputDict={}
inputDict['doc1']='Document with some text'
inputDict['doc2']='Other document with some text'
params = urllib.urlencode(inputDict)    
f = urllib2.urlopen(API_URL, params)
response= f.read()
responseObject=json.loads(response)  
print responseObject
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文