当前位置：文江博客话题详情

webmagic如何实现增量抓取

发布于 2021-11-18 01:01:21 字数 155 浏览 628 评论 5

@黄亿华黄大最近忙啥呢，github上看不见动静了都。请教个问题，增量抓取有什么好的建议吗？求赐教……

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

像你 2021-11-22 19:06:20

好吧，其他项目…… 增量抓取就是，假如每天12点定时抓取oschina的问题列表，但是只抓取新发布的，抓取过的就跳过。还有还有，顺带问一下，统计功能会加入吗？

回复收藏 0

多情癖 2021-11-22 00:13:56

回复
那就是同一url只用抓一次的意思？说真的，这样有点难，而且不科学，因为不抓取这些url，可能获取不到所有新的url，而且大多数时候还会有同一页面更新的需求... 如果允许全部抓取，但是增量更新，就简单很多了，在持久化的逻辑里做去重就行了。现在的逻辑就支持，定时启动spider就行了。

回复收藏 0

凡尘雨 2021-11-21 15:45:46

回复
问题是全部抓取太耗资源了，比如说共有100个问题已经抓取过了，现在变成了101个，再次抓取时岂不是要做100次无用功？头疼……

回复收藏 0

坚持沉默 2021-11-20 15:39:06

回复
那你就用可持久化的Scheduler，然后把去重放里面，另外再加个可以不去重的放入url的方法，专门存储爬取路径需要的url(这些还是要重复爬得)。

回复收藏 0

凌乱心跳 2021-11-20 12:33:39

我很活跃的好嘛，每天都有提交呢(其他项目)。webmagic在构思脚本化，需要先试用一阵子。

怎么个增量法，能解释下么...

回复收藏 0

~没有更多了~

关于作者

把昨日还给我

暂无简介

0 文章

0 评论

428 人气

关注发私信

游缘惊梦

文章 0 评论 0

关注

小兔几

文章 0 评论 0

关注

Glik

文章 0 评论 0

关注

生生漫

文章 0 评论 0

关注

Luxian

文章 0 评论 0

关注

Champion-Ming

文章 0 评论 0

友情链接

文江博客

webmagic如何实现增量抓取

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

游缘惊梦

小兔几

Glik

生生漫

Luxian

Champion-Ming

友情链接

webmagic如何实现增量抓取

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

游缘惊梦

小兔几

Glik

生生漫

Luxian

Champion-Ming

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。