文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
10.3 PC 站点和手机站点
本节标题中所说的www是PC浏览器看到的网站,m和wap是移动端,现在智能手机一般用的是m站,部分旧手机用的还是wap。从微博和QQ空间的界面最容易发现这三者的不同。以微博为例子,图10-25为www站点,图10-26为m站点,图10-27为wap站点。
现在越来越多的网站使用Ajax技术,而且反爬虫手段层出不穷,但是像wap这种结构简单的移动网站,不会使用复杂的技术,页面结构简单,非常利于我们提取数据,因此如果网站有m或者wap站点,优先选择作为爬取对象。如何伪装成不同的平台去访问呢?当然是修改User-Agent头,网站服务器会根据你的浏览器表头判断你是从哪个平台发送的请求,因此在爬取的时候将User-Agent头修改一下。可能大家不知道如何修改User-Agent使其符合识别要求,可以这样做。Firefox或者Chrome浏览器都有修改User-Agent的插件User-agent Switcher,通过网络请求监控,就可以查看这些插件手机发送的是什么类型的User-Agent。
图10-25 www站
图10-26 m站
图10-27 wap站
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论