检测网络爬虫的最佳、最有效的方法

发布于 2024-09-07 21:54:57 字数 34 浏览 1 评论 0原文

假装成人类的方法有很多种。那么看过去的最佳方法是什么?

There are many ways to pretend to be a human being. So what are the best methods to see past it?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

深海里的那抹蓝 2024-09-14 21:54:57

最有效的方法是 Captha,但可能会使您的网站不太用户友好。因此,最好的方法是以编程方式分析您的流量,一旦您的代码检测到异常情况,就要求用户在严格的时间内回答验证码。

只要了解基本的基础就可以了。没有人编写爬虫程序来只读取一页或一篇文章。有些人想要全部,有些人想要快速,而有些人想要定期。有些甚至可能来自不同的IP,但随后他们会以相同的风格、相同的时间间隔进行攻击。爬行者和人类最大的区别是爬行者对何时撞击有纪律,而人类是懒惰的。爬行者的效率足以同时进行多次点击,而人类则不然,等等......任何听起来像是流量日志中的模式的东西都不是别的,只不过是爬虫。

The most efficient method is Captha but can make your website less user friendly. Thus, the best approach is analyze your traffic programmaticaly and no sooner your code detects something unusual, just ask the user to answer the captha in a strict time line.

Just understand the basic funda. No one writes a crawler to read just one page or article. Some want it all, some want it fast while some want it regular. Some may even hit from different IP's but then they hit in the same style with same time gap. The biggest difference between a crawler and a human is crawler are discipline about when to hit, humans are lazy. Crawlers are efficient enough to many hits together, humans are not and so on .. . Anything which sounds as if a pattern in your traffic log is nothing else but a crawler.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文