余弦相似度问题
我已经计算了文档 1 和文档 2 的术语的 tf-idf 值。现在我不知道如何使用这些 tf-idf 值...基本上我想找到两个文档之间的相似性(在我的例子中是网页)。 .任何人都可以告诉如何实现余弦相似度,杰卡德系数来查找相似度...c#代码将不胜感激..请帮助...谢谢
i have calculated the tf-idf values of terms of document 1 and document 2..now i dont know how to use these tf-idf values...basically i want to find similarity between two documents(in my case are webpages)..can any body tell how to implement cosine similarity, jaccard coefficient to find similarity...c# code would be appreciated..pls help...thanks
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我推荐访问 Apache Mahout。它为此提供了一整套工具。即使您不想使用它们,也可以通过查看现有的实现来获得这些问题的答案。
I recommend a visit to Apache Mahout. It provides a complete kit of tools for this. Even if you don't want to use them, you can get the answers to these questions by looking at existing implementations.