当前位置：文江博客话题详情

朴素贝叶斯垃圾邮件过滤效果

发布于 2024-07-10 18:30:29 字数 109 浏览 10 评论 0原文

朴素贝叶斯过滤对于过滤垃圾邮件的效果如何？

我听说垃圾邮件发送者可以通过填充额外的非垃圾邮件相关单词轻松绕过它们。您可以使用哪些编程技术与贝叶斯过滤器一起使用来防止这种情况发生？

需要登录才能够评论，你可以免费注册一个本站的账号。

你爱我像她 2024-07-17 18:30:29

在第二篇文章中，Graham 提到使用 CRM114，它适用于更广泛的模式集，而不仅仅是空格分隔的模式字。 CRM114 很酷，但对于垃圾邮件过滤系统没有太多实施帮助。

有用于贝叶斯垃圾邮件过滤的开源强大工具，例如 Death2Spam 和 SpamProbe。

我发现没有什么比通过 Gmail 帐户过滤邮件更有效的了。狩猎快乐。

橪书 2024-07-17 18:30:29

我认为，为了击败你提到的那种垃圾邮件攻击，重要的不是学习方法，而是你训练的特征。我使用 Fidelis Assis 的 OSBF-Lua，这是一个非常成功的过滤器：它不断赢得垃圾邮件过滤器的竞赛。它使用贝叶斯学习，但我认为其成功的真正原因在于三个原则：

它不是在单个单词上进行训练，而是在稀疏二元组上进行训练：一对由 0 到 4 “don” 分隔的单词不在乎”的话。垃圾邮件发送者必须将他们的消息放在某个地方，而稀疏的二元组非常擅长找出他们。它甚至可以发现附件垃圾邮件！
它对邮件标头进行了额外的训练，因为垃圾邮件发送者很难伪装这些标头。示例：源自您的网络且从未通过离网中继主机的邮件可能不是垃圾邮件。
如果垃圾邮件过滤器对其分类的置信度较低，它会请求人工输入。（实际上，它添加了一个标头字段，表示“请就该消息对我进行培训”；人们可以忽略该请求。）这意味着，随着垃圾邮件发送者发展新技术，您的过滤器也会不断发展以匹配。

这种技术的组合非常有效。

免责声明：我与 Fidelis 合作重构了一些软件，以便将其用于其他目的，例如将常规邮件分组或可能有一天尝试检测博客评论和其他地方的垃圾邮件。