webmagic可以抓取瀑布流网站吗
想抓取一个网站,这个网站是瀑布流的,下拉时通过ajax进行新内容加载,而且某些内容通过查看源代码看不到,这种方式可以用webMagic来抓取吗?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
想抓取一个网站,这个网站是瀑布流的,下拉时通过ajax进行新内容加载,而且某些内容通过查看源代码看不到,这种方式可以用webMagic来抓取吗?
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(13)
花瓣网的瀑布流翻页,下一页数据怎么弄。 下一页的网址没什么规律啊
用神箭手云爬虫吧,实现很简单
当然我说的是python或者ruby、golang这种,node.js没用过,不知道用它写爬虫会怎么样,应该可以直接执行网页的js代码吧
js是明码的,认真解读一下它生成的图片地址就可以了。最好先格式化,如用jetbrains phpstorm ,ctrl + shift + f,可以把它压缩了的,无缩进代码,还原成可读的明码,很好搞。如果读通了,可以用你熟悉的语言(php,python)翻译一下,就OK了,我通常是这么干的。
回复
用人力啊,倒是也行,但是不通用啊
回复
还有更强悍的,用python pamie,控制IE,模拟鼠标滚动,IE就会有数据加载,再用pamie获取html的 dom就很OK啦。
回复
重点是看时间成本,如果确实有用,而找不到其它的代替资源,就需要针对性的去做了。反正网上多的是资源,东家不行找西家。
ajax不也是一个地址吗?它极可能返回的是json,xml,或是html,把这些下载下来,分析出有用的数据,都是一样的思路,何来下载不了?
ajax不也是一个地址吗?它极可能返回的是json,xml,或是html,把这些下载下来,分析出有用的数据,都是一样的思路,何来下载不了?
webmagic有一个selenuim,默认的httpdownloader不行的
自己定制一个download
现在这种网站挺多的,不支持这种网站的爬虫,那意义不是很大啊
为什么不行呢?ajax 加载,也是有数据的哦。