用java对数千个文本文档进行集群
有没有有效的方法对文本文档进行聚类?我考虑过K-Means,但它似乎太耗时了。有人可以给我提供一个有效的方法吗?
Is there efficient way clustering text documents? I thought about K-Means but it seems to be too time consuming. Can somebody provide me with an efficient method?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
如果 K-Means 确实能完成这项工作,只是看起来很慢,那么为什么不尝试让它更快呢?我使用的方法是随机暂停。
通常情况下,在不改变基本算法的情况下,您不会认为代码中有很大的加速空间。
这是一个示例。
If K-Means actually does the job, and simply seems to be slow, then why not try to make it faster? The method I use is random-pausing.
It's usually the case that there is lots of room for speedup, in code you wouldn't have thought to be a problem, without changing the basic algorithm.
Here's an example.
聚类算法取决于您的数据集,您想用java编写算法吗对您的文档进行聚类? ,您可以使用 weka 而不是重新发明轮子并尝试另一种聚类数据集上的算法。
clustering algorithm depends on your dataset , do you want to write a algorithm in java to cluster your documents ? , you can use weka instead of reinvent the wheel and to try another clustering algorithm on your dataset .