文本分类,包括预处理

发布于 2024-10-31 19:21:29 字数 45 浏览 5 评论 0原文

如果时间不是一个因素,并且我们不知道有多少类,哪种方法是文档分类的最佳方法?

Which is the best method for document classification if time is not a factor, and we dont know how many classes there are?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

懵少女 2024-11-07 19:21:29

据我(不完全)所知,如果您不知道有多少个类,层次聚合聚类是最好的方法。所有其他聚类算法要么需要预先了解存储桶的数量,要么需要某种交叉验证或其他实验来确定合理的存储桶数量。

In my (incomplete) knowledge, Hierarchical Agglomerative Clustering is the best approach if you don't know how many classes. All of the other clustering algorithms either require prior knowledge of the number of buckets or some sort of cross-validation or other experimentation to determine a sensible number of buckets.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文