NodeJs如何爬取动态网页?
我想去爬一些电商网站,里面有很多图片的。现在用的是cheerio,我发现它不能获得页面中通过懒加载的图片,也就是通过js处理生成的图片。有什么办法或者别的库可以实现这种功能?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
我想去爬一些电商网站,里面有很多图片的。现在用的是cheerio,我发现它不能获得页面中通过懒加载的图片,也就是通过js处理生成的图片。有什么办法或者别的库可以实现这种功能?
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(4)
推荐谷歌团队自己研发的操控chrome无头浏览器的接口puppeteer
只能自己分析网页的js来获取,或者用chrome的无头模式,运行一个真正的浏览器来爬
一般懒加载图片的url应该是保存在img标签中的,比如data-src之类的,你查看一下那些图片的属性。
如果不行的话,就用 phantomjs 。
爬页面最好的方式还是爬接口,分析接口调用方式,入参,cookie。