@黄亿华 你好,想跟你请教个问题:我要对一个新闻网站进行定时爬取,昨天得到的链接今天怎么避免重复爬取到呢……
呃…这个去重是说队列中的url吧,如果我想和一周前的采集过的url进行比较去重呢?
通过Scheduler管理URL
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
暂无简介
文章 0 评论 0
接受
发布评论
评论(2)
呃…这个去重是说队列中的url吧,如果我想和一周前的采集过的url进行比较去重呢?
通过Scheduler管理URL