使用 Apache Mahout 对数据进行分类

发布于 2024-10-01 18:43:27 字数 223 浏览 14 评论 0原文

我正在尝试解决一个简单的分类问题。

问题：
我有一组文本，我必须根据内容对它们进行分类。

使用 Mahout 的解决方案：
我知道我必须将输入转换为序列文件才能生成模型。是的，我能够做到这一点。现在，我如何对我的测试数据进行分类？ 20News 示例仅测试正确性。但是，我想做实际的分类。
我不确定是否需要编写代码或使用一些现有的类来对测试集进行分类。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

挖鼻大婶 2024-10-08 18:43:27

我讨厌插入自己的工作，但我们在 Mahout in Action 中放入了有关分类的整个部分。理论、代码示例、案例研究实践，甚至整个服务器场实施。

您可以在 http://www.manning.com/owen/ 获取预发行版本

回复收藏 0 原文

め可乐爱微笑 2024-10-08 18:43:27

我有类似的问题。

运行

bin/mahout org.apache.mahout.classifier.Classify --path <PATH TO MODEL> --classify <PATH TO TEXT FILE TO BE CLASSIFIED> --encoding UTF-8 --analyzer org.apache.mahout.vectorizer.DefaultAnalyzer --defaultCat unknown --gramSize 1 --classifierType bayes --dataSource hdfs

将根据模型对文本文件进行分类。

这可能会让您更进一步，但我猜测，像我一样，您想要对整个文档负载进行分类，并且希望以有用的格式输出。

可能需要编写一些java 程序才能做到这一点。有人有一个例子，看起来它会做我想做的事情

I am having a similar problem.

Running

bin/mahout org.apache.mahout.classifier.Classify --path <PATH TO MODEL> --classify <PATH TO TEXT FILE TO BE CLASSIFIED> --encoding UTF-8 --analyzer org.apache.mahout.vectorizer.DefaultAnalyzer --defaultCat unknown --gramSize 1 --classifierType bayes --dataSource hdfs

will classify a text file based on the model.

This might get you a bit further forward, but I'm guessing that, like me, you want to classify a whole load of documents and you want the output in a useful format.

Might have to program a bit of java to do this. Someone has an example that looks like it will do what I want at https://bitbucket.org/jaganadhg/blog/src/tip/bck9/java/src/org/bc/kl/ClassifierDemo.java

回复收藏 0 原文

~没有更多了~