webmagic如何实现增量抓取

发布于 2021-11-18 01:01:21 字数 155 浏览 628 评论 5

@黄亿华 黄大最近忙啥呢,github上看不见动静了都。请教个问题,增量抓取有什么好的建议吗?求赐教……

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(5

像你 2021-11-22 19:06:20

好吧,其他项目…… 增量抓取就是,假如每天12点定时抓取oschina的问题列表,但是只抓取新发布的,抓取过的就跳过。 还有还有,顺带问一下,统计功能会加入吗?

多情癖 2021-11-22 00:13:56

回复
那就是同一url只用抓一次的意思?说真的,这样有点难,而且不科学,因为不抓取这些url,可能获取不到所有新的url,而且大多数时候还会有同一页面更新的需求... 如果允许全部抓取,但是增量更新,就简单很多了,在持久化的逻辑里做去重就行了。现在的逻辑就支持,定时启动spider就行了。

凡尘雨 2021-11-21 15:45:46

回复
问题是全部抓取太耗资源了,比如说共有100个问题已经抓取过了,现在变成了101个,再次抓取时岂不是要做100次无用功?头疼……

坚持沉默 2021-11-20 15:39:06

回复
那你就用可持久化的Scheduler,然后把去重放里面,另外再加个可以不去重的放入url的方法,专门存储爬取路径需要的url(这些还是要重复爬得)。

凌乱心跳 2021-11-20 12:33:39

我很活跃的好嘛,每天都有提交呢(其他项目)。webmagic在构思脚本化,需要先试用一阵子。

怎么个增量法,能解释下么...

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文