当前位置：文江博客话题详情

python 数据挖掘

发布于 2024-10-29 08:54:22 字数 279 浏览 6 评论 0原文

我不太热衷于数据挖掘，但我需要一些关于聚类的想法。我先描述一下我的问题。

我有大约 100 个数据表，其中包含用户评论。我正在尝试寻找描述质量的词语。一个人可以说这是惊人的质量，另一个人可以说这是很好的质量现在我必须对那些描述相似句子的文档进行聚类并获取这些句子的频率。这里应用什么概念？

我想我必须指定一些停用词和同义词。我对这个概念不太熟悉。

有人可以给我一些详细的链接或解释吗？以及使用什么工具？我基本上是一个Python程序员，所以任何Python模块都会受到赞赏。

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

梦过后 2024-11-05 08:54:22

有 http://www.nltk.org/ 用于语言处理。通过这个库，您可以将文本拆分成句子、计算术语频率、查找同义词等等。

Carrot^2 是一个很好的用于聚类文本片段的开源项目，不幸的是它是用 Java 编写的。其聚类背后的想法是术语和短语（二元组和三元组）频率。预处理后，每个文档（片段、评论）都表示为术语/短语频率的向量。为了计算簇，他们使用一些线性代数并找到该术语空间中的主成分。然后使用这些组件来形成它们的簇和标签。

在您的情况下，值得将评论视为文档，对它们进行聚类并获取聚类标签。可能标签会以某种方式评估评论。

在您的具体情况下，值得消除感兴趣的单词，从而显着降低维度，这在此类任务中非常关键

另一个有用的项目 - montylingua

回复收藏 0 原文