使用朴素贝叶斯进行文本分类

发布于 2024-12-18 16:35:35 字数 425 浏览 2 评论 0原文

我正在使用朴素贝叶斯解决文本分类机器学习问题。我把每个词当作一个特征。我已经能够实现它并且获得了很好的准确性。

我可以使用单词元组作为特征吗？

例如，如果有两个课程：政治和体育。政府这个词可能出现在他们两个身上。然而，在政治中我可以有一个元组（政府，民主），而在体育类中我可以有一个元组（政府，运动员）。因此，如果出现一篇新的政治文章，则元组（政府、民主）的概率比元组（政府、运动员）的概率更大。

我问这个问题是因为这样做我违反了朴素贝叶斯问题的独立性假设，因为我也将单个单词视为特征。

另外，我正在考虑为特征添加权重。例如，3 元组特征的权重小于 4 元组特征的权重。

从理论上讲，这两种方法不会改变朴素贝叶斯分类器的独立性假设吗？另外，我还没有开始使用我提到的方法，但这会提高准确性吗？我认为准确性可能不会提高，但获得相同准确性所需的训练数据量会更少。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

木森分化 2024-12-25 16:35:35

即使不添加二元组，真实文档也已经违反了独立性假设。以奥巴马出现在文件中为条件，总统出现的可能性就大得多。尽管如此，朴素贝叶斯在分类方面仍然做得不错，即使它给出的概率估计完全错误。因此，我建议您继续向分类器添加更复杂的特征，看看它们是否可以提高准确性。

如果用更少的数据获得相同的精度，那么基本上相当于用相同数量的数据获得更好的精度。

另一方面，随着数据量的减少，使用更简单、更常见的功能效果会更好。如果您尝试将太多参数拟合到太少数据中，则往往会严重过度拟合。

但最重要的是尝试一下看看。

回复收藏 0 原文

叹倦 2024-12-25 16:35:35

不，从理论角度来看，你并没有改变独立性假设。您只需创建一个修改过的（或新的）样本空间。一般来说，一旦开始使用更高的 n 元模型作为样本空间中的事件，数据稀疏性就会成为一个问题。我认为使用元组会导致同样的问题。您可能需要更多而不是更少的训练数据。您可能还需要更多地考虑您使用的平滑类型。简单的拉普拉斯平滑可能并不理想。

我认为最重要的一点是：无论您使用什么分类器，其特征都高度依赖于领域（有时甚至是数据集）。例如，如果您根据电影评论对文本情感进行分类，仅使用一元语法似乎违反直觉，但它们比仅使用形容词表现更好。另一方面，对于 Twitter 数据集，一元语法和二元语法的组合被发现很好，但更高的 n 元语法没有用。基于此类报告（参考 Pang 和 Lee，意见挖掘和情感分析），我认为使用较长的元组会显示类似的结果，因为毕竟，单词元组只是更高层次中的点。次元空间。基本算法的行为方式相同。

回复收藏 0 原文

~没有更多了~