webmagic可以抓取瀑布流网站吗

发布于 2021-11-28 21:27:52 字数 72 浏览 918 评论 13

想抓取一个网站,这个网站是瀑布流的,下拉时通过ajax进行新内容加载,而且某些内容通过查看源代码看不到,这种方式可以用webMagic来抓取吗?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(13

掩饰不了的爱 2021-12-04 00:24:08

花瓣网的瀑布流翻页,下一页数据怎么弄。  下一页的网址没什么规律啊

回眸一笑 2021-12-04 00:20:20

用神箭手云爬虫吧,实现很简单

怎言笑 2021-12-04 00:18:57

当然我说的是python或者ruby、golang这种,node.js没用过,不知道用它写爬虫会怎么样,应该可以直接执行网页的js代码吧

眼眸 2021-12-04 00:16:57

js是明码的,认真解读一下它生成的图片地址就可以了。最好先格式化,如用jetbrains phpstorm ,ctrl + shift + f,可以把它压缩了的,无缩进代码,还原成可读的明码,很好搞。如果读通了,可以用你熟悉的语言(php,python)翻译一下,就OK了,我通常是这么干的。

如此安好 2021-12-03 23:39:14

回复
用人力啊,倒是也行,但是不通用啊

岁月打碎记忆 2021-12-03 23:02:42

回复
还有更强悍的,用python pamie,控制IE,模拟鼠标滚动,IE就会有数据加载,再用pamie获取html的 dom就很OK啦。

千纸鹤带着心事 2021-12-03 22:58:12

回复
重点是看时间成本,如果确实有用,而找不到其它的代替资源,就需要针对性的去做了。反正网上多的是资源,东家不行找西家。

爱你是孤单的心事 2021-12-03 10:49:36

ajax不也是一个地址吗?它极可能返回的是json,xml,或是html,把这些下载下来,分析出有用的数据,都是一样的思路,何来下载不了?

好听的两个字的网名 2021-12-03 10:12:28

ajax不也是一个地址吗?它极可能返回的是json,xml,或是html,把这些下载下来,分析出有用的数据,都是一样的思路,何来下载不了?

私藏温柔 2021-12-03 08:38:44

webmagic有一个selenuim,默认的httpdownloader不行的

沦落红尘 2021-12-03 01:34:11

自己定制一个download

倾城泪 2021-12-02 23:11:23

现在这种网站挺多的,不支持这种网站的爬虫,那意义不是很大啊

拍不死你 2021-12-01 19:26:13

为什么不行呢?ajax 加载,也是有数据的哦。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文