关于余弦相似度

发布于 2024-09-02 00:58:00 字数 282 浏览 9 评论 0原文

我发现文档之间的余弦相似度..我这样做

D1=(8,0,0,1) 其中 8,0,0,1 是术语 t1, t2, t3 , t4

D2 的 tf-idf 分数=(7,0,0,1)

cos(theta) = (56 + 0 + 0 + 1) / sqrt(64 + 49) sqrt(1 +1 )

得出

cos(theta)= 5

现在呢我是否根据这个值进行评估...我不明白 cos(theta)=5 表示它们之间的相似性是什么...我做的事情正确吗?

I am finding cosine similarity between documents.. I did it like this

D1=(8,0,0,1) where 8,0,0,1 are the tf-idf scores of the terms t1, t2, t3 , t4

D2=(7,0,0,1)

cos(theta) = (56 + 0 + 0 + 1) / sqrt(64 + 49) sqrt(1 +1 )

which comes out to be

cos(theta)= 5

Now what do I evaluate from this value... I don't get it what does cos(theta)=5 signify about the similarity between them... Am I doing things right?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

心头的小情儿 2024-09-09 00:58:00

分母是错误的。

余弦相似度 定义为

         D1 · D2
 sim = ———————————
        |D1| |D2|

Here

D1 · D2 = (7*8 + 0*0 + 0*0 + 1*1) = 57
           ______________________    __
   |D2| = √ 7^2 + 0^2 + 0^2 + 1^2 = √50
           ______________________    __
   |D1| = √ 8^2 + 0^2 + 0^2 + 1^2 = √65

所以相似度应该是 (57 / √(50 * 65 )) = 0.999846142,而不是 5。

The denominator is wrong.

The cosine similarity is defined as

         D1 · D2
 sim = ———————————
        |D1| |D2|

Here

D1 · D2 = (7*8 + 0*0 + 0*0 + 1*1) = 57
           ______________________    __
   |D2| = √ 7^2 + 0^2 + 0^2 + 1^2 = √50
           ______________________    __
   |D1| = √ 8^2 + 0^2 + 0^2 + 1^2 = √65

So the similarity should be (57 / √(50 * 65)) = 0.999846142, not 5.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文