朴素贝叶斯分类（垃圾邮件过滤）- 哪种计算是正确的？

发布于 2024-09-01 02:02:31 字数 1088 浏览 8 评论 0原文

我正在实施朴素贝叶斯分类器来过滤垃圾邮件。我对某些计算有疑问。请澄清我该怎么做。这是我的问题。

在此方法中，您必须计算

$alt text$

P(S|W) -> ;给定单词 W 的消息中出现垃圾邮件的概率。

P(W|S)->单词 W 在垃圾邮件中出现的概率。

P(宽|高)->单词 W 在 Ham 消息中出现的概率。

因此，要计算 P(W|S)，下列哪项是正确的：

（垃圾邮件中 W 出现的次数）/（所有邮件中 W 出现的总次数）
（单词 W 在垃圾邮件中出现的次数）/（垃圾邮件中单词的总数）

那么，要计算 P(W|S)，我应该执行 (1) 还是 (2)？（我认为是（2），但我不确定。）

我指的是 http://顺便说一下，en.wikipedia.org/wiki/Bayesian_spam_filtering 获取信息。

我必须在本周末之前完成实施:(

重复出现单词“W”是否应该增加邮件的垃圾邮件分数？按照您的方法，不会，对吧？。

假设我们有 100 条训练消息，其中其中 50 封是垃圾邮件，50 封是火腿邮件，假设每条邮件的 word_count = 100。

。

假设，在垃圾邮件中，单词 W 在每条邮件中出现 5 次，而单词 W 在火腿邮件中出现 1 次，因此 W 出现的总次数所有垃圾邮件中

W 出现的次数 = 5*50 = 250 次，W 在所有非垃圾邮件中出现的总次数 = 1*50 = 50 次，

W 在所有训练消息中出现的总次数 = (250+50) = 300那么

，在这种情况下，您如何计算 P(W|S) 和 P(W|H) 呢

？代码> 对吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

谁把谁当真 2024-09-08 02:02:31

P(W|S) =（包含 W 的垃圾邮件数量）/（所有垃圾邮件数量）

回复收藏 0 原文

一身仙ぐ女味 2024-09-08 02:02:31

尽管这是一个很老的问题，但没有一个答案是完整的，因此值得纠正。

朴素贝叶斯不是单一算法，而是一个算法系列，基于相同的贝叶斯规则：

“在此处输入图像描述”

其中 C 是一个类（在本例中为火腿或垃圾邮件），带有箭头的 x 是属性向量（最简单情况下的单词）。
P(C)只是C类消息在整个数据集中的比例。 P(x) 是具有向量x 描述的属性的消息出现的概率，但由于该参数对于所有类都是相同的，我们可以暂时省略它。但这个问题是关于 P(x|C) 的，给定当前消息的向量 x 应该如何计算它？

实际上，答案取决于NB算法的具体类型。其中有几种，包括多元伯努利 NB、多元高斯 NB、多项式 NB 以及数字和布尔属性和其他人。有关计算它们中的每一个的 P(x|C) 的详细信息以及用于垃圾邮件过滤任务的 NB 分类器的比较，请参阅本文。