@黄亿华 你好,想跟你请教个问题:页面内某个列表中的链接只显示20个,多余的会被分到下一页,webmagic该怎么去抓取下一页的链接,不胜感激
希望黄大大更新一下这个问题中涉及到的博客链接地址,。对我很有用。我是初学。
您的文档我之前看过了。额,列表页分成很多分页,我已将列表页的第一页加入到了抓取目标当中了,但是只能抓取到当前页面的20个链接。我的问题简单来说就是怎么让爬虫能够自己去翻列表页(那个网站的翻页是javascript的一个函数)。描述有些乱,不知道您是否理解了我的意思
回复js翻页建议看这篇:http://webmagic.io/docs/posts/chx-cases/js-render-page.html 建议是分析一下翻页的具体请求
回复不知xpath的函数您什么时候能加进去,不能如:tr[position()>5]还真是不太方便啊
你需要把列表页也加入到抓取目标中去,详情可以看我的文档:http://webmagic.io/docs/posts/chx-cases/basic-list-target.html
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
暂无简介
文章 0 评论 0
接受
发布评论
评论(5)
希望黄大大更新一下这个问题中涉及到的博客链接地址,
。对我很有用。我是初学。
您的文档我之前看过了。额,列表页分成很多分页,我已将列表页的第一页加入到了抓取目标当中了,但是只能抓取到当前页面的20个链接。我的问题简单来说就是怎么让爬虫能够自己去翻列表页(那个网站的翻页是javascript的一个函数)。描述有些乱,不知道您是否理解了我的意思
回复
js翻页建议看这篇:http://webmagic.io/docs/posts/chx-cases/js-render-page.html 建议是分析一下翻页的具体请求
回复
不知xpath的函数您什么时候能加进去,不能如:tr[position()>5]还真是不太方便啊
你需要把列表页也加入到抓取目标中去,详情可以看我的文档:
http://webmagic.io/docs/posts/chx-cases/basic-list-target.html