文档聚类基础知识

发布于 2024-12-14 09:10:48 字数 182 浏览 0 评论 0原文

所以,我对这些概念思考了一段时间,我的理解是非常基本的。信息检索似乎是一个很少被广泛讨论的话题......

我的问题源于文档聚类的过程。假设我从一组仅包含有趣单词的文档开始。这里的第一步是什么?解析每个文档中的单词并创建一个巨大的“词袋”类型模型?然后我是否继续为每个文档创建字数向量?如何使用 K 均值聚类之类的方法来比较这些文档?

So, I've been mulling over these concepts for some time, and my understanding is very basic. Information retrieval seems to be a topic seldom covered in the wild...

My questions stem from the process of clustering documents. Let's say I start off with a collection of documents containing only interesting words. What is the first step here? Parse the words from each document and create a giant 'bag-of-words' type model? Do I then proceed to create vectors of word counts for each document? How do I compare these documents using something like the K-means clustering?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

旧故 2024-12-21 09:10:48

首先尝试 Tf-idf
如果你读过 Python,请看
“使用 MiniBatchKmeans 对文本文档进行聚类”
scikit-learn 中:
“展示如何使用 scikit-learn 进行聚类的示例
使用词袋方法按主题排列文档”。
然后源代码中的 feature_extraction/text.py 有非常好的类。

Try Tf-idf for starters.
If you read Python, look at
"Clustering text documents using MiniBatchKmeans"
in scikit-learn:
"an example showing how the scikit-learn can be used to cluster
documents by topics using a bag-of-words approach".
Then feature_extraction/text.py in the source has very nice classes.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文