当前位置：文江博客话题详情

如何保护/监控您的网站免遭恶意用户抓取

发布于 2024-07-10 06:50:59 字数 543 浏览 8 评论 0原文

情况：

网站的内容受用户名/密码保护（并非全部受控，因为他们可以是试用/测试用户），
由于用户名/密码限制，普通搜索引擎无法访问该网站，
恶意用户仍然可以登录并传递会话 cookie到“wget -r”或其他东西。

问题是监视此类活动并对其做出响应的最佳解决方案是什么（考虑到站点策略不允许爬行/抓取）

我可以想到一些选项：

设置一些流量监视解决方案以限制请求的数量给定的用户/IP。
与第一点相关：自动阻止某些用户代理
（邪恶:)）设置一个隐藏链接，在访问该链接时注销用户并禁用他的帐户。（大概普通用户不会访问它，因为他看不到它并单击它，但机器人会抓取所有链接。）

对于第 1 点，您是否知道已经实施的良好解决方案？有什么相关经验吗？一个问题是，对于非常活跃但人类的情况，可能会出现一些误报。用户。

对于第三点：你认为这真的很邪恶吗？或者您认为它可能存在任何问题吗？

也接受其他建议。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

离鸿 2024-07-17 06:50:59

我不建议自动锁定，并不是因为它们一定是邪恶的，而是因为它们向恶意用户提供了他们触发传感器的即时反馈，并让他们知道不要对他们签署的下一个帐户做同样的事情跟上。

并且用户代理阻止可能不会有太大帮助，因为显然用户代理很容易伪造。

您能做的最好的事情就是监控，但是您仍然必须询问如果检测到恶意行为您将做什么。只要您拥有不受控制的访问权限，您锁定的任何人都可以使用不同的身份再次注册。我不知道您需要什么样的信息才能获得帐户，但例如，仅姓名和电子邮件地址不会对任何人构成太大障碍。

这是典型的 DRM 问题——如果任何人都可以看到该信息，那么任何人都可以用它做任何他们想做的事情。你可以让它变得困难，但最终如果有人真的下定决心，你就无法阻止他们，并且你可能会干扰合法用户并损害你的业务。

回复收藏 0 原文

度的依靠╰つ 2024-07-17 06:50:59

第1点有你自己提到的问题。此外，它也无助于减缓网站的爬行速度，或者如果有的话，对于合法的重度用户来说可能会更糟。

您可以扭转第 2 点，只允许您信任的用户代理。当然，这对对抗伪造标准用户代理的工具没有帮助。

第 3 点的变体只是向网站所有者发送通知，然后他们可以决定如何处理该用户。

同样，对于我对第 2 点的变体，您可以将其设置为更温和的操作，并仅通知有人正在使用奇怪的用户代理访问该网站。

编辑：相关的是，当我访问自己的非公开 URL 时，我曾经遇到过一个奇怪的问题（我只是暂存一个我没有在任何地方宣布或链接的网站）。虽然除了我之外没有人应该知道这个 URL，但我突然注意到日志中的点击次数。当我找到它时，我发现它来自某个内容过滤网站。事实证明，我的移动 ISP 使用第三方来阻止内容，并且它拦截了我自己的请求 - 因为它不知道该网站，所以它然后获取我试图访问的页面，并且（我假设）在其中进行了一些关键字分析来决定是否阻止。这种事情可能是您需要注意的尾端情况。

回复收藏 0 原文