从 Mahout 聚类结果中识别文档
我正在使用 mahout 对使用 solr 索引的文本文档进行聚类。
我已经使用文档中的“文本”字段来形成向量。然后我使用 mahout 中的 k-means 驱动程序进行集群,然后使用 clusterdumper 实用程序转储结果。
我很难理解转储程序的输出结果。我可以看到由这些簇中的术语向量形成的簇。 但是我如何从这些集群中提取文档。我希望结果是出现在不同集群中的输入文档。
I am using mahout to cluster text documents indexed using solr.
I have used the "text" field in the document to form vectors. Then I used the k-means driver in mahout for clustering and then the clusterdumper utility to dump the results.
I am having difficulty in understanding the output results from the dumper. I could see the clusters formed with term vectors in those clusters.
But how do I extract the documents from these clusters. I want the result to be the input documents appearing in different clusters.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我也遇到了这个问题。这个想法是集群转储程序转储所有带有点等的集群数据。您有两种选择:
I also had this problem. The idea is that cluster dumper dumps all your cluster data with points and so on. You have two choices: