如何对爬取对象取重?
每次启动爬虫,都会从目标页上抓取链接,怎样保证每次只抓取最新的链接,也就是不要重复抓取呢?
数据量不大的话,弄个md5或者uuid即可。
错别字。
Bloom filter,Redis Set
抓取过的网页放在一个集合里面。 有新的链接的时候看看那个集合里面有灭有。 有了就不抓取萨
去重有很多方式,具体看你所爬链接数量,多的话可以试试bloom filter。
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
暂无简介
文章 0 评论 0
接受
发布评论
评论(4)
数据量不大的话,弄个md5或者uuid即可。
错别字。
Bloom filter,Redis Set
抓取过的网页放在一个集合里面。 有新的链接的时候看看那个集合里面有灭有。 有了就不抓取萨
去重有很多方式,具体看你所爬链接数量,多的话可以试试bloom filter。