当前位置：文江博客话题详情

heuristics spam-prevention bots

启发式发现垃圾邮件发送者/机器人（在论坛、博客等中）

发布于 2024-07-16 06:08:51 字数 519 浏览 10 评论 0原文

我能想到的方法是：

测量动作之间的时间。
比较帖子的内容（如果它们彼此太相似），或者更好的是，仅比较发布的链接。
检查一段时间内用户活跃的分布（如果用户活跃，比如说每小时发布一次，持续一周，那么我们这里要么是超人，要么是机器人）。
预期的一些特殊活动：就像在 stackoverflow 中一样，我希望用户按下他们的用户名链接（顶部中间）来查看他们的新答案、评论、问题等。
（由 chakrit 添加）帖子中的链接数量。
不是启发式的。使用一些异步 JS 进行用户登录。（这只会让机器人程序员的生活变得更加困难）。
（由 Alekc 添加）不是启发式的。用户代理值。
而且，我怎么能忘记谷歌的方法（威尔·哈同（Will Hartung）提到过）。让用户能够将某人标记为垃圾邮件，足够的垃圾邮件投票意味着这是垃圾邮件用户。（计算什么是足够的用户，就是这里的工作）。

还有更多想法吗？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（8）

白首有我共你 2024-07-23 06:08:51

我可能高估了机器人创建者的智力，但数字 6 对于任何半像样的机器人创建者来说都是完全没有用的。使用 C# 浏览器控件创建机器人几乎会使 6 无用。从我对此类软件的观察来看，这是一种非常常见的方法。

对用户代理进行验证几乎毫无用处，我收到的所有博客垃圾邮件都来自看似有效的网络浏览器的机器人。

我曾经收到很多博客垃圾邮件。我实际上每天会删除数百条评论。我使用了 reCaptcha，现在我可能每月获得 1 个。

如果你真的尝试做这样的事情。我会尝试执行以下操作：

用户一开始无法发布网址。

在分析了 X 个帖子与线程中其他帖子的关系后，然后让他们访问帖子网址。

用户在网站上的活动、帖子质量以及您认为必要的其他因素将成为该用户 IP 的声誉。

然后，根据该 IP 和同一子网上的其他 IP 的声誉，您可以根据需要做出其他决定。

这只是我首先想到的事情。希望能帮助到你。

回复收藏 0 原文

难理解 2024-07-23 06:08:51

帖子中的链接数量。

我相信我在某处读到 Akismet 使用链接数量作为其主要启发法之一。

我博客上的大多数垃圾评论都包含 10 多个链接。

说到这里...您可能只想查看 Akismet API 本身..它们是非常有效。

回复收藏 0 原文

┼── 2024-07-23 06:08:51

在帖子正文中搜索与垃圾邮件相关的关键字怎么样？

这不是一种启发式的方法，但却是一种有效的方法：您还可以随时了解 StopForumSpam 发布的统计信息使用他们的 API。

回复收藏 0 原文

A君 2024-07-23 06:08:51

我相信页面访问之间的时间很常见。

我需要在我的个人网站上添加评论部分，并正在考虑要求人们向我提供他们的电子邮件地址；我会通过电子邮件向他们发送“发布评论”链接。

您可能需要检查它们是否来自垃圾邮件黑名单 IP 地址（请参阅 http://www.spamhaus.org /)

回复收藏 0 原文

天暗了我发光 2024-07-23 06:08:51

还有另一个答案建议使用 Akismet 来检测垃圾邮件，我完全赞同。

然而，他们并不是唯一的参与者。

有 TypePad AntiSpam，它使用与 Akismet 相同的启发式方法，以及相同的 API（只是不同的 URL）和 api key，调用的结构是相同的）。可以肯定地说，他们几乎采取了与 Akismet 相同的方法。

您可能还想查看Project Honeypot。据我所知，它可以根据用户的 IP 地址进行查找，如果它是已知的恶意 IP，它会告诉你（收割机或类似的东西）。

最后，您可以检查 LinkSleeve，它以据称不同的方式处理垃圾评论。基本上，它检查评论中链接到的链接，并根据链接的目标位置做出决定。

回复收藏 0 原文

一指流沙 2024-07-23 06:08:51

不要忘记最终的启发：用户可以单击的“报告垃圾邮件”按钮。如果不出意外的话，这让您作为管理员有机会更新您的规则库，以发现可能漏掉的内容。当然，您也可以立即删除违规帖子和用户。

回复收藏 0 原文

陌伤浅笑 2024-07-23 06:08:51

我对 4° 点有一些疑问，无论如何我也会添加 User-Agent。这很容易伪造，但根据我的经验，大约 90% 的机器人都使用 Perl 作为 UA

回复收藏 0 原文

皓月长歌 2024-07-23 06:08:51

我确信有某种网络服务，您可以获取顶级 SEO 关键字列表，检查这些关键字的内容。如果内容包含太多关键字，则怀疑其为垃圾邮件。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

27 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

紫罗兰の梦幻

文章 0 评论 0

-2134

文章 0 评论 0

liuxuanli

文章 0 评论 0

意中人

文章 0 评论 0

○愚か者の日

文章 0 评论 0

xxhui

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文