当前位置：文江博客话题详情

文档聚类基础知识

发布于 2024-12-14 09:10:48 字数 182 浏览 0 评论 0原文

所以，我对这些概念思考了一段时间，我的理解是非常基本的。信息检索似乎是一个很少被广泛讨论的话题......

我的问题源于文档聚类的过程。假设我从一组仅包含有趣单词的文档开始。这里的第一步是什么？解析每个文档中的单词并创建一个巨大的“词袋”类型模型？然后我是否继续为每个文档创建字数向量？如何使用 K 均值聚类之类的方法来比较这些文档？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

旧故 2024-12-21 09:10:48

首先尝试 Tf-idf。
如果你读过 Python，请看
“使用 MiniBatchKmeans 对文本文档进行聚类”
在 scikit-learn 中：
“展示如何使用 scikit-learn 进行聚类的示例
使用词袋方法按主题排列文档”。
然后源代码中的 feature_extraction/text.py 有非常好的类。