PHP-如何采集防采集网站的数据
最近做数据采集,发现浏览器可以直接打开,用view-source方式也可以查看到源代码,但是采用PHP去抓取数据的时候,出现403,使用工具模拟浏览器去采集数据也是出现同样的情况。不知道有没有办法可以解决这样的问题。
以下是采集的网站http://yyk.39.net/area-gz-0-0-1-1-2.shtml
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(5)
附上userAgent, 或者抓包分析!
采用firefox分析多判断 ,有些网站会判断cookies 之类的情况。建议用curl模拟!
见招拆招,伪装成搜索引擎,赋上所有的头信息,观察有没有其他校验参数,如果是ajax请求的数据,就直接请求
用Chrome的网络工具把请求头记录下来,然后你伪造的请就的带上这些数据。记得Cookie和Referer、Useragent也带上。
GET后能正常接收数据,请自查;
附上userAgent, 或者抓包分析!