具有 top-k 输出的大规模朴素贝叶斯分类器
我需要一个用于大规模朴素贝叶斯的库,其中包含数百万个训练示例和超过 10 万个二进制特征。它必须是在线版本(训练后可更新)。我还需要 top-k 输出,即单个实例的多个分类。准确性并不是很重要。
目的是自动文本分类应用程序。
非常感谢任何关于好的图书馆的建议。
编辑:该库最好采用 Java 语言。
I need a library for naïve Bayes large scale, with millions of training examples and +100k binary features. It must be an online version (updatable after training). I also need top-k output, that is multiple classifications for a single instance. Accuracy is not very important.
The purpose is an automatic text categorization application.
Any suggestions for a good library is very appreciated.
EDIT: The library should preferably be in Java.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
如果朴素贝叶斯以外的学习算法也可以接受,那么请查看 Vowpal Wabbit (C++),它具有被誉为最佳可扩展文本分类算法之一(在线随机梯度下降 + LDA)。我不确定它是否有 top-K 输出。
If a learning algorithm other than naïve Bayes is also acceptable, then check out Vowpal Wabbit (C++), which has the reputation of being one of the best scalable text classification algorithms (online stochastic gradient descent + LDA). I'm not sure if it does top-K output.