数据采集-如何做网站数据抓取并修改而不被对方封
最近在做一个项目,大概是如此:
1. 自动登录。在我的软件M中输入A网站的普通用户帐号密码,进行自动登录;
2. 登录后台自动爬到目标页面,进行目标页面的信息采集(text,javascript内容等),并将信息放入软件M中;
3. 对软件M中显示的从A目标网页获取的信息进行修改,并将修改信息同步到A网站中的相应位置(还是text,JavaScript内容等);
4. 对操作进行保存(A和M中)。
5. 问题来了:由于这些抓取、修改请求都来自一个服务器,操作频繁后就被A网站禁用了。请问需要用什么才能不让对方封了呢?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
1,修改请求的useragent,模拟普通用户的useragent
2, 获取不同页面时,增加一定的间隔时间
3,如无业务上的要求,每次抓取的时间尽量随机
一句话,尽量模拟普通用户的操作