确定 Mahout LDA 输出上的文档 ID

发布于 2024-10-19 07:32:25 字数 227 浏览 9 评论 0原文

我已成功运行 mahout lda，并使用命令 mahout ldatopics 显示输出。

例如，我的主题是科学和体育。那么输出将是这样的：主题 0 篮球，玩，棒球主题1 研究，学习，我现在的问题

是如何识别单个文章的组或簇。是否有 ID 号或某种跟踪，以便我添加的每一篇新文章都会被分组或添加到特定的集群/主题。

如果我已经拥有集群，下一步是什么？

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

樱娆 2024-10-26 07:32:25

我一直在查看源代码，但找不到任何提及用于计算给定文档的主题概率的 theta 矩阵，并且因为没有输入 Alpha 值来估计每个文档的主题和 LDAState 类有一个 logProbWordGivenTopic(int, int) 方法，但没有像 getProbTopicGivenDocument() 我只能假设 LDA 的 mahout 实现不处理发现特定文档的主题分布。如果其他人更了解的话，我很愿意错。

回复收藏 0 原文

~没有更多了~