Mahout 中朴素贝叶斯分类器对网站分类的适用性

发布于 2024-12-13 01:35:27 字数 500 浏览 2 评论 0原文

我目前正在开发一个项目，需要一个对网站进行分类的数据库（例如 cnn.com = 新闻）。我们只需要广泛的分类 - 我们不需要对每个 URL 进行单独分类。我们正在与此类数据库的常见供应商进行交谈，但我们收到的大多数报价都相当昂贵，而且他们通常会提出烦人的要求 - 例如必须使用他们的 SDK 来查询数据库。

同时，我也一直在探索自己建立这样一个数据库的可能性。我意识到这不是一个 5 分钟的工作，所以我做了很多研究。

通过阅读有关该主题的各种论文，朴素贝叶斯分类器似乎通常是执行此操作的标准方法。然而，许多论文建议增强其网络分类的准确性，通常是通过利用其他上下文信息，例如超链接、标题标签、多词短语、URL、词频等。

我一直在针对 20 个新闻组测试数据集试验 Mahout 的朴素贝叶斯分类器，我可以看到它对网站分类的适用性，但我担心它对我的用例的准确性。

有人知道在 Mahout 中扩展贝叶斯分类器以考虑其他属性的可行性吗？任何关于从哪里开始的指示将不胜感激。

或者，如果我完全找错了树，请告诉我！

原文

分享到QQ

分享到微博