BloomFilter 在爬虫里该如何用?
最近在练习爬虫,有人推荐用 BloomFilter 算法来判断url是否已经抓过,看了一些资料,还是不太明白该怎么写出来,求大牛指导。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
最近在练习爬虫,有人推荐用 BloomFilter 算法来判断url是否已经抓过,看了一些资料,还是不太明白该怎么写出来,求大牛指导。
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(2)
bloom 简单的说就是 K 个hash函数,对于一个key可以算出k个hask(key),然后将数组arr(hask(key)) = 1。判断一个key是否已经抓过,就按照上面的流程再算一遍,所有的hask(key)都是1就是已经爬过的。
推荐你用bloom filter的人,估计也就随口说,你搞不定这个,你用KV把所有爬过的Url存下来也行啊。。。
http://blog.csdn.net/lemon_tree12138/article/details/47973715