如何对爬取对象取重?
如何对爬取对象取重?
每次启动爬虫,都会从目标页上抓取链接,怎样保证每次只抓取最新的链接,也就是不要重复抓取呢?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
如何对爬取对象取重?
每次启动爬虫,都会从目标页上抓取链接,怎样保证每次只抓取最新的链接,也就是不要重复抓取呢?
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(4)
数据量不大的话,弄个md5或者uuid即可。
错别字。
Bloom filter,Redis Set
抓取过的网页放在一个集合里面。 有新的链接的时候看看那个集合里面有灭有。 有了就不抓取萨
去重有很多方式,具体看你所爬链接数量,多的话可以试试bloom filter。