当前位置：文江博客话题详情

tagging cluster-analysis

如何根据主题对短消息 [Tweets] 进行聚类？ [基于主题的聚类]

发布于 2024-09-03 17:18:11 字数 521 浏览 6 评论 0 原文

我正在计划一个应用程序，它将根据主题创建短信/推文集群。主题的数量将受到限制，例如体育 [NBA、NFL、板球、足球]、娱乐 [电影、音乐] 等等...

我可以想到两种方法来

要求用户标记问题，就像 Stackoverflow 所做的那样。用户可以从预定义的标签列表中选择标签。然后在服务器端我将根据标签对它们进行聚类。优点：- 设计简单。代码复杂度较低。缺点：- 用户的选择将受到限制。集群不会是动态的。如果发生新事件，预定义标签将错过它。
获取消息，删除停用词[在字典中预定义]，对词干消息应用某种聚类算法以形成聚类，并根据其受欢迎程度显示聚类。该集群将一直显示到它仍然流行的时间[许多消息/分钟]。新消息将被略读并分配给相应的集群。优点：- 基于事件/事故的流行程度的动态聚类。缺点：- 增加了复杂性。需要更多的服务器资源。

我想知道是否还有其他方法可以解决这个问题。或者有什么办法可以改进上述方法？

还建议一些好的聚类算法。我认为“K-Nearest Clustering”算法很适合这种情况。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

ゞ记忆︶ㄣ 2024-09-10 17:18:11

查看 Carrot2，该工具从文本和簇中提取标签。您可以从此处下载它并检查实现的算法（主要是Lingo）此处。

希望这对您有帮助。

回复收藏 0 原文

巴黎夜雨 2024-09-10 17:18:11

使用贝叶斯分类。使用一些预定义的语料库训练过滤器，并（可选）为用户提供一种通过标记错误分类的内容来进一步细化过滤器的方法。

以下是使用贝叶斯分类器的一些 ="http://www.nltk.org/" rel="nofollow noreferrer">NLTK。

回复收藏 0 原文

一抹微笑 2024-09-10 17:18:11

我也在做类似的事情。我认为如果你专门谈论 Twitter，主题标签是一个好方法。您还可以执行一些分类，但应该通过一些外部知识库（例如维基百科等）来丰富它。
无论如何，如果您的解决方案更好，请发布在这里

回复收藏 0 原文

~没有更多了~

关于作者

难忘№最初的完美

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

更多

推荐作者

关注

书间行客

文章 0 评论 0

关注

我ぃ本無心為│何有愛

文章 0 评论 0

关注

神妖

文章 0 评论 0

关注

undefined

文章 0 评论 0

关注

38169838

文章 0 评论 0

关注

彡翼

文章 0 评论 0

更多

友情链接

文江博客

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文