当前位置：文江博客话题详情

tf-idf：我理解对吗？

发布于 2024-08-26 22:12:48 字数 132 浏览 18 评论 0原文

我对进行一些文档聚类感兴趣，现在我正在考虑使用 TF-IDF 来实现此目的。

如果我没记错的话，TF-IDF 特别用于评估文档给定查询的相关性。如果我没有特定的查询，如何将 tf-idf 应用于聚类？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

池木 2024-09-02 22:12:48

用于文档聚类。最好的方法是使用k-means 算法。如果您知道有多少种类型的文档，您就知道 k 是什么。

要使其适用于文档：

a) 随机选择初始 k 个文档。

b) 使用文档与簇的最小距离将每个文档分配给一个簇。

c) 将文档分配到簇后，通过取每个簇的质心，将 K 个新文档作为簇。

现在的问题是

a）如何计算两个文档之间的距离：它只不过是文档术语与初始聚类的余弦相似度。这里的术语只不过是 TF-IDF（之前为每个文档计算的）

b) 质心应该是：给定术语/编号的 TF-IDF 之和。的文件。对簇中所有可能的项执行此操作。这将为您提供另一个 n 维文档。

希望这有帮助！

回复收藏 0 原文

不乱于心 2024-09-02 22:12:48

实际上并不完全是：tf-idf 为您提供给定文档中术语的相关性。
因此，您可以通过计算邻近度将其完美地用于聚类，这类似于

proximity(document_i, document_j) = sum(tf_idf(t,i) * tf_idf(t,j))

doc i 和 doc j 中的每个术语 t 。

Not exactly actually: tf-idf gives you the relevance of a term in a given document.
So you can perfectly use it for your clustering by computing a proximity which would be something like

proximity(document_i, document_j) = sum(tf_idf(t,i) * tf_idf(t,j))

for each term t both in doc i and doc j.

回复收藏 0 原文

昔梦 2024-09-02 22:12:48

TF-IDF 有不同的用途；除非你打算重新发明轮子，否则你最好使用像 Carrot 这样的工具。如果您想自己实现一种算法，则通过谷歌搜索文档聚类可以为您提供多种算法。

回复收藏 0 原文

~没有更多了~

关于作者

老街孤人

暂无简介

文章

27 人气

关注发私信

十二

文章 0 评论 0

关注

飞烟轻若梦

文章 0 评论 0

关注

OPleyuhuo

文章 0 评论 0

关注

wxb0109

文章 0 评论 0

关注

旧城空念

文章 0 评论 0

关注

-小熊_

文章 0 评论 0

友情链接

文江博客

tf-idf：我理解对吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者