根据余弦相似度值进行聚类

发布于 2024-11-04 09:15:27 字数 201 浏览 5 评论 0原文

我从一组 URL 中提取了单词,并计算了每个 URL 内容之间的余弦相似度。而且我还标准化了 0-1 之间的值(使用最小-最大)。现在我需要根据余弦相似度值对 URL 进行聚类以查找找出类似的 URL。哪种聚类算法最合适?请建议我一种动态聚类方法,因为它会很有用,因为我可以按需增加 URL 的数量,而且它会更自然。如果您觉得我这样,请纠正我我正在制作以错误的方式取得进展。感谢您的期待。

I have extracted words from a set of URLs and calculated cosine similarity between each URL's contents.And also I have normalized the values between 0-1(using Min-Max).Now i need to cluster the URLs based on cosine similarity values to find out similar URLs.which clustering algorithm will be most suitable?.Please suggest me a Dynamic clustering method because it will be useful since i could increase number of URL's on demand and also it will be more natural.Please correct me if you feel i'm making the progress in a wrong way.Thanks in anticipation.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

怪我入戏太深 2024-11-11 09:15:27

K-means聚类可以用于在线学习,你只需要先验选择聚类的数量。另外,我认为你不应该标准化你的数据,因为余弦已经提供了 [0:1] 范围内的值。您的最小-最大标准化可能会导致信息丢失。

K-means clustering can be used for online learning, you just need to select the number of clusters a priori. Also, I think you shouldn't normalize your data, because cosine already provides values in the range [0:1]. Your Min-Max normalization could lead to information loss.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文