关于抓取淘宝产品页数据的方法
最近学习爬虫抓取淘宝的信息,看了一些代码。有些问题,向各位请教
http://hws.m.taobao.com/cache/wdetail/5.0/?id=XXXXXXXXX
这个地址是什么地址?能获取到产品页信息,但是去淘宝开放平台也没查到这种接口,
百度也找不到一点信息。
开始的时候,我以为直接抓这种页面(大家平时买东西浏览的页面):
https://item.taobao.com/item.htm?id= XXXXXXXX
最后请问大家抓淘宝信息一般怎么抓?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(7)
神箭手云爬虫平台的淘宝商品信息及评价采集爬虫(按商品搜索关键字)支持云端自动采集,试试监控更新~
爬虫链接:http://www.shenjianshou.cn/index.php?r=market/configDetail&pid=119
可以一试
简单来说,最好用淘宝客的API,不要直接爬它的展示页,https://open.taobao.com/doc2/apiList.htm?spm=a219a.7629065.0.0.gKVdeE&cid=38
多看没有用,不知现在还能不能用。
我抓取的量比较小,也就抓几个产品页,不停的刷新,貌似没屏蔽我
它有策略的 我试过重复抓几次IP地址就会被屏蔽的。试过免费的代理服务器 不是很稳定的
话说为啥他会免费给人家用,产品信息不也是个很重要的资源吗
回复
你放心好了。应该是有反爬策略。