如何分类但不使用分类或聚类算法？

发布于 2024-11-28 04:23:20 字数 990 浏览 10 评论 0原文

我有一个爬虫程序，每天存储来自 7 个不同新闻机构的体育数据。它每天存储约1200条体育新闻。我想将最近两天的新闻分类为子类别。因此，每两天我都会收到大约 2400 条新闻，这些新闻都是针对这些天的，而且它们的许多主题都在谈论同一事件。例如：

70 条新闻正在谈论 Brad Keselowski 的 500 英里比赛。
120 条新闻正在谈论美国游泳运动员 Nyad 开始游泳。
28位新人正在谈论曼联和曼城之间的比赛。
。。 .

换句话说，我想要制作类似 Google 新闻的内容。

问题是这种情况不是分类问题，因为我没有特殊的类。例如，我的课不是游泳、高尔夫、足球等。我的课是这两年发生的各个领域的特殊事件。所以我不能使用朴素贝叶斯等分类算法。

另一方面，我的问题也不是用聚类算法来解决。因为我不想强迫他们放入n个簇。也许其中一条新闻没有任何相似的新闻，或者也许在两天的一包中，有 12 个不同的故事，但在另外两天里，有 30 个不同的问题。所以我不能使用诸如“单链接（最大相似度）”、“完整链接（最小相似度）”、“最大加权匹配”或“组平均（平均内部相似度）”之类的聚类算法。

我自己对此有一些想法，例如，每两条有 10 个常用词的新闻应该在同一类中。但如果我们不考虑一些参数，例如文档的长度、常用词和生僻词的影响以及其他一些因素，这将无法很好地发挥作用。

我已阅读这篇论文< /a>，但这不是我的答案。

有没有已知的算法可以解决这个问题？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

鱼窥荷 2024-12-05 04:23:20

在我看来，这个问题是一个聚类问题，聚类的质量度量未知。这指向一种无监督方法，该方法最终基于使用数据中的冗余来检测相关性。也许类似于主成分分析或潜在语义分析可能很有用。不同的维度（主成分或奇异向量）将指示不同的主要主题，与向量成分相对应的术语希望是出现在描述中的单词。一个缺点是不能保证最强的相关性能够轻松地产生合理的描述。

回复收藏 0 原文