当前位置：文江博客话题详情

用于对新闻文章进行分组的增量聚类算法？

发布于 2024-09-16 13:46:12 字数 584 浏览 10 评论 0原文

我正在做一些关于如何将文章聚集到谷歌新闻的“新闻报道”中的研究。

看看之前关于该主题的问题，我经常看到建议简单地从文章中提取单词向量，如果某些单词位于文章的某些部分（例如标题），则增加它们的权重，然后使用类似 k-means 算法的方法对文章进行聚类。

但这会带来几个问题：

使用 k 均值，您如何提前知道 k 应该是多少？在动态新闻环境中，您的故事数量可能非常可变，并且您不会提前知道一组文章代表多少个故事。
使用分层聚类算法，您如何决定使用哪些聚类作为您的故事？您将在树的底部有一些集群，这些集群只是单个文章，您显然不想使用它们，并且在树的根部有一个集群，其中包含所有文章，这也是您不想使用的...但是您如何知道应该使用中间的哪些集群来表示故事？
最后，无论是 k 均值算法还是分层算法，我读过的大多数文献似乎都假设您有一个想要聚类的预设文档集合，并且它会立即将它们全部聚类。但是，如果经常有新文章出现，该怎么办？会发生什么？既然多了一篇文章，您是否必须从头开始对所有文章进行聚类？这就是为什么我想知道是否有一些方法可以让您随时“添加”文章，而无需从头开始重新聚类。我无法想象这是非常有效的。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

此岸叶落 2024-09-23 13:46:12

我在一家初创公司工作，该公司正是构建了这个：新闻文章的增量集群引擎。我们的算法基于本文：Web Document Clustering using Document Index Graph (http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=4289851）。对于我们每天 10K 篇文章来说效果很好。

它有两个主要优点：
1）它是增量的，它解决了您必须处理传入文章流的问题（而不是一次性集群）
2）它使用基于短语的建模，而不是仅仅使用“词袋”，这会带来更高的准确性。

谷歌搜索会弹出http://www.similetrix.com，他们可能有你要找的东西。

回复收藏 0 原文