关于余弦相似度
我发现文档之间的余弦相似度..我这样做
D1=(8,0,0,1) 其中 8,0,0,1 是术语 t1, t2, t3 , t4
D2 的 tf-idf 分数=(7,0,0,1)
cos(theta) = (56 + 0 + 0 + 1) / sqrt(64 + 49) sqrt(1 +1 )
得出
cos(theta)= 5
现在呢我是否根据这个值进行评估...我不明白 cos(theta)=5 表示它们之间的相似性是什么...我做的事情正确吗?
I am finding cosine similarity between documents.. I did it like this
D1=(8,0,0,1) where 8,0,0,1 are the tf-idf scores of the terms t1, t2, t3 , t4
D2=(7,0,0,1)
cos(theta) = (56 + 0 + 0 + 1) / sqrt(64 + 49) sqrt(1 +1 )
which comes out to be
cos(theta)= 5
Now what do I evaluate from this value... I don't get it what does cos(theta)=5 signify about the similarity between them... Am I doing things right?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
分母是错误的。
余弦相似度 定义为
Here
所以相似度应该是 (57 / √(50 * 65 )) = 0.999846142,而不是 5。
The denominator is wrong.
The cosine similarity is defined as
Here
So the similarity should be (57 / √(50 * 65)) = 0.999846142, not 5.