当前位置：文江博客话题详情

阻止网络抓取工具

发布于 2024-09-12 23:08:31 字数 44 浏览 3 评论 0原文

网站可以通过哪些方式阻止网络抓取工具？如何确定您的服务器是否被机器人访问？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

满天都是小星星 2024-09-19 23:08:31

验证码
不到一秒提交的表单
隐藏（通过 css）字段获取表单提交期间提交的值
频繁的页面访问

简单的机器人无法从 Flash、图像或声音中抓取文本。

回复收藏 0 原文

缱绻入梦 2024-09-19 23:08:31

不幸的是，您的问题类似于人们问如何阻止垃圾邮件。没有固定的答案，并且它不会阻止持续存在的某人/机器人。

然而，这里有一些可以实现的方法：

检查用户代理（但这可能是欺骗性的）
使用 robots.txt（适当的机器人会 - 希望尊重这一点）
检测过于一致地访问大量页面的 IP 地址（每个“x “秒）。
手动或在系统中创建标志来检查谁正在访问您的网站并阻止抓取工具所采用的某些路线。
不要在您的网站上使用标准模板，并创建通用 css 类 - 并且不要在代码中放入 HTML 注释。

回复收藏 0 原文

南街女流氓 2024-09-19 23:08:31

您可以使用 robots.txt 来阻止注意到它的机器人（但仍然允许通过其他已知实例，例如谷歌等） - 但这不会阻止那些忽略它的机器人。您也许可以从 Web 服务器日志中获取用户代理，或者您可以更新代码以将其记录在某处。如果您希望阻止特定用户代理访问您的网站，只需返回空/默认屏幕和/或特定服务器代码即可。

回复收藏 0 原文