当前位置：文江博客话题详情

webmagic可以抓取瀑布流网站吗

发布于 2021-11-28 21:27:52 字数 72 浏览 918 评论 13

想抓取一个网站，这个网站是瀑布流的，下拉时通过ajax进行新内容加载，而且某些内容通过查看源代码看不到，这种方式可以用webMagic来抓取吗？

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

掩饰不了的爱 2021-12-04 00:24:08

花瓣网的瀑布流翻页，下一页数据怎么弄。下一页的网址没什么规律啊

回复收藏 0

回眸一笑 2021-12-04 00:20:20

用神箭手云爬虫吧，实现很简单

回复收藏 0

怎言笑 2021-12-04 00:18:57

当然我说的是python或者ruby、golang这种，node.js没用过，不知道用它写爬虫会怎么样，应该可以直接执行网页的js代码吧

回复收藏 0

眼眸 2021-12-04 00:16:57

js是明码的，认真解读一下它生成的图片地址就可以了。最好先格式化，如用jetbrains phpstorm ,ctrl + shift + f，可以把它压缩了的，无缩进代码，还原成可读的明码，很好搞。如果读通了，可以用你熟悉的语言（php,python）翻译一下，就OK了，我通常是这么干的。

回复收藏 0

如此安好 2021-12-03 23:39:14

回复
用人力啊，倒是也行，但是不通用啊

回复收藏 0

岁月打碎记忆 2021-12-03 23:02:42

回复
还有更强悍的，用python pamie，控制IE，模拟鼠标滚动，IE就会有数据加载，再用pamie获取html的 dom就很OK啦。

回复收藏 0

千纸鹤带着心事 2021-12-03 22:58:12

回复
重点是看时间成本，如果确实有用，而找不到其它的代替资源，就需要针对性的去做了。反正网上多的是资源，东家不行找西家。

回复收藏 0

爱你是孤单的心事 2021-12-03 10:49:36

ajax不也是一个地址吗？它极可能返回的是json,xml,或是html,把这些下载下来，分析出有用的数据，都是一样的思路，何来下载不了？

回复收藏 0

好听的两个字的网名 2021-12-03 10:12:28

ajax不也是一个地址吗？它极可能返回的是json,xml,或是html,把这些下载下来，分析出有用的数据，都是一样的思路，何来下载不了？

回复收藏 0

私藏温柔 2021-12-03 08:38:44

webmagic有一个selenuim，默认的httpdownloader不行的

回复收藏 0

沦落红尘 2021-12-03 01:34:11

自己定制一个download

回复收藏 0

倾城泪 2021-12-02 23:11:23

现在这种网站挺多的，不支持这种网站的爬虫，那意义不是很大啊

回复收藏 0

拍不死你 2021-12-01 19:26:13

为什么不行呢？ajax 加载，也是有数据的哦。

回复收藏 0

~没有更多了~

关于作者

心舞飞扬

暂无简介

0 文章

0 评论

574 人气

关注发私信

束缚ｍ

文章 0 评论 0

关注

alipaysp_VP2a8Q4rgx

文章 0 评论 0

关注

α

文章 0 评论 0

关注

一口甜

文章 0 评论 0

关注

厌味

文章 0 评论 0

关注

转身泪倾城

文章 0 评论 0

友情链接

文江博客

webmagic可以抓取瀑布流网站吗

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（13）

关于作者

相关话题

热门标签

推荐作者

束缚ｍ

alipaysp_VP2a8Q4rgx

α

一口甜

厌味

转身泪倾城

友情链接

webmagic可以抓取瀑布流网站吗

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（13）

关于作者

相关话题

热门标签

推荐作者

束缚ｍ

alipaysp_VP2a8Q4rgx

α

一口甜

厌味

转身泪倾城

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。