页面内的链接被分页,该如何抓取其他分页中的链接地址?

发布于 2021-11-22 20:31:06 字数 174 浏览 926 评论 5

@黄亿华 你好,想跟你请教个问题:页面内某个列表中的链接只显示20个,多余的会被分到下一页,webmagic该怎么去抓取下一页的链接,不胜感激

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(5

千笙结 2021-11-29 12:35:52

希望黄大大更新一下这个问题中涉及到的博客链接地址,
。对我很有用。我是初学。

虐人心 2021-11-29 10:53:14

您的文档我之前看过了。额,列表页分成很多分页,我已将列表页的第一页加入到了抓取目标当中了,但是只能抓取到当前页面的20个链接。我的问题简单来说就是怎么让爬虫能够自己去翻列表页(那个网站的翻页是javascript的一个函数)。描述有些乱,不知道您是否理解了我的意思

柳若烟 2021-11-29 08:12:41

回复
js翻页建议看这篇:http://webmagic.io/docs/posts/chx-cases/js-render-page.html 建议是分析一下翻页的具体请求

已下线请稍等 2021-11-29 07:41:14

回复
不知xpath的函数您什么时候能加进去,不能如:tr[position()>5]还真是不太方便啊

青萝楚歌 2021-11-27 20:42:33

你需要把列表页也加入到抓取目标中去,详情可以看我的文档:
http://webmagic.io/docs/posts/chx-cases/basic-list-target.html

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文