文本分类,包括预处理
如果时间不是一个因素,并且我们不知道有多少类,哪种方法是文档分类的最佳方法?
Which is the best method for document classification if time is not a factor, and we dont know how many classes there are?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
据我(不完全)所知,如果您不知道有多少个类,层次聚合聚类是最好的方法。所有其他聚类算法要么需要预先了解存储桶的数量,要么需要某种交叉验证或其他实验来确定合理的存储桶数量。
In my (incomplete) knowledge, Hierarchical Agglomerative Clustering is the best approach if you don't know how many classes. All of the other clustering algorithms either require prior knowledge of the number of buckets or some sort of cross-validation or other experimentation to determine a sensible number of buckets.
交叉链接:请参阅 how-do-i-define -k-when-using-k-means-clustering 上的 SO。
A cross link: see how-do-i-determine-k-when-using-k-means-clustering on SO.