当前位置：文江博客话题详情

网站是如何区分我的访问是爬虫还是计算机呢？

发布于 2022-09-01 23:02:05 字数 266 浏览 14 评论 0

我用jsoup写了一个爬虫对网站进行爬取，过了一段时间，就被封了ip，变成了403，需要等好久才能解封。但是我用网页登录还是没问题的，也没要求输入验证码之类的。

我的jsoup中加入了这几项，是不是有漏掉的呢？

User-Agent，Request-Line，Accept-Encoding，Accept-Language，Cache-Control，Connection，Content-Type，Host，cookie

请问网站是如何区分我的访问是程序还是计算机呢？？

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

风流物 2022-09-08 23:02:05

一般网站都是通过User-Agent来确定搜索引擎爬虫，像题主这种就统一归类为恶意访问，一般来说，网站都不是一开始就做反爬虫的，都是通过分析access_log统计访问，根据IP、请求时间、频率、访问的路径来确认黑名单，发现了自己的网站被恶意访问，然后使用iptable来禁止，如果屡禁不止，就只能写一个中间件实时过滤，具体就是通过数据库记录每个ip访问频率，然后可能加上referer，访问时间间隔等等措施，具体怎么搞，每个网站都有自己的方法，很难说

回复收藏 0

~没有更多了~