@黄亿华 黄大最近忙啥呢,github上看不见动静了都。请教个问题,增量抓取有什么好的建议吗?求赐教……
好吧,其他项目…… 增量抓取就是,假如每天12点定时抓取oschina的问题列表,但是只抓取新发布的,抓取过的就跳过。 还有还有,顺带问一下,统计功能会加入吗?
回复那就是同一url只用抓一次的意思?说真的,这样有点难,而且不科学,因为不抓取这些url,可能获取不到所有新的url,而且大多数时候还会有同一页面更新的需求... 如果允许全部抓取,但是增量更新,就简单很多了,在持久化的逻辑里做去重就行了。现在的逻辑就支持,定时启动spider就行了。
回复问题是全部抓取太耗资源了,比如说共有100个问题已经抓取过了,现在变成了101个,再次抓取时岂不是要做100次无用功?头疼……
回复那你就用可持久化的Scheduler,然后把去重放里面,另外再加个可以不去重的放入url的方法,专门存储爬取路径需要的url(这些还是要重复爬得)。
我很活跃的好嘛,每天都有提交呢(其他项目)。webmagic在构思脚本化,需要先试用一阵子。
怎么个增量法,能解释下么...
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
暂无简介
文章 0 评论 0
接受
发布评论
评论(5)
好吧,其他项目…… 增量抓取就是,假如每天12点定时抓取oschina的问题列表,但是只抓取新发布的,抓取过的就跳过。 还有还有,顺带问一下,统计功能会加入吗?
回复
那就是同一url只用抓一次的意思?说真的,这样有点难,而且不科学,因为不抓取这些url,可能获取不到所有新的url,而且大多数时候还会有同一页面更新的需求... 如果允许全部抓取,但是增量更新,就简单很多了,在持久化的逻辑里做去重就行了。现在的逻辑就支持,定时启动spider就行了。
回复
问题是全部抓取太耗资源了,比如说共有100个问题已经抓取过了,现在变成了101个,再次抓取时岂不是要做100次无用功?头疼……
回复
那你就用可持久化的Scheduler,然后把去重放里面,另外再加个可以不去重的放入url的方法,专门存储爬取路径需要的url(这些还是要重复爬得)。
我很活跃的好嘛,每天都有提交呢(其他项目)。webmagic在构思脚本化,需要先试用一阵子。
怎么个增量法,能解释下么...