有没有可能爬淘宝,获取商品信息?
我们想做电子商务垂直行业分析,想爬取淘宝的商品信息。淘宝的商品信息使用了很多ajax技术,尤其是评论部分;请问有什么好的方案么?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
我们想做电子商务垂直行业分析,想爬取淘宝的商品信息。淘宝的商品信息使用了很多ajax技术,尤其是评论部分;请问有什么好的方案么?
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(6)
有两种方案
目前我司用的是第二种方法,已经抓取了亿级别的淘宝商品
淘宝提供了一套丰富的API的,不必写爬虫去翻。
http://open.taobao.com/doc/category_list.htm?id=102
查看商品评价的方法:取得了商品的 num_iid 后,调用 taobao.traderates.get 这个API
爬过,评论详情是ajax的,比较难获取,商品信息还是可以的。
这是我写的简单的爬虫(http://pfffinc.diandian.com/post/2013-01-14/40047366704)
最长用的方法是搜索关键字,
通过关键字的信息返回商品ID,
在通过商品ID来搜索商品。
[http://open.taobao.com/doc/api_cat_detail.htm?spm=0.0.0.0.niihQi&cat_id=38&category_id=102]
在没太多线路资源,抓取频率又不低的情况下,还要解决随时出现的验证码。
这里有个淘宝商品信息及评价采集爬虫(按商品搜索关键字)