@黄亿华 您好,请教一个问题:webmagic如何设置爬取的深度?
可以通过TargetUrl 和 HelpUrl来解决这个问题吗?
如只想爬取三层, TargetUrl("http://whatever.com/depth/[1-3]")
我也发现了没有设置爬取深度的函数,如果自己写的话,是不是需要为每一个url记录一个当前的爬取层次?
回复 @牙牙nancy : 就是一层层地获取URL,到需要的信息那一层就可以了;而且webmagic主要是做垂直爬虫,用来做开发也是要这样的。
好像是需要自己写代码控制的吧?
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
暂无简介
文章 0 评论 0
接受
发布评论
评论(4)
可以通过TargetUrl 和 HelpUrl来解决这个问题吗?
如只想爬取三层, TargetUrl("http://whatever.com/depth/[1-3]")
我也发现了没有设置爬取深度的函数,如果自己写的话,是不是需要为每一个url记录一个当前的爬取层次?
回复 @牙牙nancy : 就是一层层地获取URL,到需要的信息那一层就可以了;而且webmagic主要是做垂直爬虫,用来做开发也是要这样的。
好像是需要自己写代码控制的吧?