当前位置：文江博客话题详情

如何忽略网络爬虫？

发布于 2024-11-27 03:09:26 字数 185 浏览 0 评论 0原文

我有一个页面可以计算用户（注册、访客、各种用户......）访问的次数。

因此，每次查看页面时，我都会更新数据库中的一个字段；是的，如果页面刷新得很快，但我不介意这一点。

当然，当一些机器人/爬虫扫描我的网站时，他们会增加这个值，我会摆脱这个。那么，是否有一个可以忽略的 IP 地址列表？或者有什么机制可以帮助我做到这一点？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

攀登最高峰 2024-12-04 03:09:26

另一种方法是使用 ajax。大多数爬虫不解析 javascript。

回复收藏 0 原文

自我难过 2024-12-04 03:09:26

IP 地址可能会发生变化，因此这并不是检测访问者是否为机器人的最佳方法。相反，我建议查看 HTTP 请求参数中的用户代理字符串。

以下是用户代理字符串列表： http://www.user-agents.org/ 。特别查看 R 类型下的“机器人、爬行器、蜘蛛”。

回复收藏 0 原文

り繁华旳梦境 2024-12-04 03:09:26

大多数人没有静态 IP 地址。您是否设置了 robots.txt 来拒绝爬虫/机器人的访问？您可以定期查询日志文件，以尝试识别那些不尊重 robots.txt 的文件，尽管用户代理很容易被欺骗/更改。

回复收藏 0 原文

~没有更多了~

关于作者

素罗衫

暂无简介

0 文章

0 评论

22 人气

关注发私信

已经忘了多久

文章 0 评论 0

关注

15867725375

文章 0 评论 0

关注

LonelySnow

文章 0 评论 0

关注

走过海棠暮

文章 0 评论 0

关注

轻许诺言

文章 0 评论 0

关注

信馬由缰

文章 0 评论 0

友情链接

文江博客

如何忽略网络爬虫？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签