求助!天猫的商品详情页怎么都采集不到内容,之前还好好的~~~
天猫的商品详情页(http://detail.tmall.com/item.htm?id=45028136433) 两周前还能用snoopy采集到内容,但最近应该又修改了什么,curl(cookies也试了)、snoopy、fopen、file_get_contents都试过了,根本采集不到,不是返回空就是一个无实质内容的302页面。
用httpwatch看了下,中间经过了好几次跳转,其中有一个是https,但之前能采集的时候我记得好像也是跳转了多次,snoopy就能轻松采集到。httpwatch截图如下:
自己用的snoopy采集函数:
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(9)
写爬虫的童鞋可以试试神箭手云爬虫,自带JS渲染、代理ip、验证码识别等功能,还可以发布和导出爬取的数据,生成图表等,都在云端进行,不需要安装开发环境。
http://hws.m.taobao.com/cache/wdetail/5.0/?id=
这个地址是什么地址?
刚开始学抓淘宝数据,我以为直接抓这种页面
https://item.taobao.com/item.htm?id=
因为你在抓取https,需要一些额外的设置。
看这里:http://php.net/manual/zh/migration56.openssl.php
推荐用这种方法:
http://hws.m.taobao.com/cache/wdetail/5.0/?id=45028136433
============================================
file_get_contents():
curl加上:
我想你可以用这种方法:
id={$id} 商品ID
http://hws.m.taobao.com/cache/wdetail/5.0/?id=45028136433
我也遇到这个问题,请求帮助 @
shuyaode
问题解决了吗
求高手指点!
同求高手
我也遇到这个问题了,原来这样用CURL就可以获取,现在调整CURL各种选项一直没能获取,原来是这样的:
有那位高手能挑战一下,怎么才能获取天猫搜索列表页和商品详情页呢?
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, TRUE);
加一句,这样就可以了