网站是如何区分我的访问是爬虫还是计算机呢?
我用jsoup写了一个爬虫对网站进行爬取,过了一段时间,就被封了ip,变成了403,需要等好久才能解封。但是我用网页登录还是没问题的,也没要求输入验证码之类的。
我的jsoup中加入了这几项,是不是有漏掉的呢?
User-Agent,Request-Line,Accept-Encoding,Accept-Language,Cache-Control,Connection,Content-Type,Host,cookie
请问网站是如何区分我的访问是程序还是计算机呢??
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
一般网站都是通过
User-Agent
来确定搜索引擎爬虫,像题主这种就统一归类为恶意访问,一般来说,网站都不是一开始就做反爬虫的,都是通过分析access_log
统计访问,根据IP、请求时间、频率、访问的路径来确认黑名单,发现了自己的网站被恶意访问,然后使用iptable
来禁止,如果屡禁不止,就只能写一个中间件实时过滤,具体就是通过数据库记录每个ip访问频率,然后可能加上referer,访问时间间隔等等措施,具体怎么搞,每个网站都有自己的方法,很难说