当前位置：文江博客话题详情

如何从大数据中找出两条相同的信息

发布于 2022-08-24 09:39:25 字数 82 浏览 23 评论 0

有50亿条商品名称信息，每条信息最长是50个字符，给定限制内存是4G，如何从这50亿条商品信息中查找出任意两条相同商品名称信息。给出思路以及算法思路。

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

甜警司 2022-08-31 09:39:26

算法2粗糙版：基于布隆过滤器，扫一遍，找出那些可能是重复的。看完这个数据结构你就懂了。

算法2精确版：使用布隆过滤器，扫一遍，找出那些可能是重复的。再扫一遍，计算它们的出现次数，超过1的就是精确的答案。

---

算法1：基本思路是对n个信息进行相对比较平均的分组（使用 hash(info) % m 分成m组），使得每组构成的哈希表可以放在内存中，且保证相同的两个信息进入同一组，然后再对每一组中的数据建立哈希表进行匹配即可。

4GB内存大约可以存下8000w+个50Bytes，考虑到hash表的空间利用率，假设以5000w为一组，则需要1000组（这个数字可以适当增加，并且使用质数的话通常效果更好）。

时间复杂度和空间复杂度都是O(n)。

p.s. 由于涉及到了外存，所以时间和空间复杂度其实就是扯淡。这个算法需要将所有数据先扫描一次（读取），分组（写入硬盘），再对每组进行查找（再读取），也就是要读2次写1次。

回复收藏 0

泪之魂 2022-08-31 09:39:26

把商品名称分词，再对分词进行向量运算。然后就把这个问题转换成了向量比较问题，夹角越小则越被认为是同一个商品。

回复收藏 0

~没有更多了~

关于作者

海螺姑娘

暂无简介

文章

26 人气

关注发私信

饮湿

文章 0 评论 0

关注

明月

文章 0 评论 0

关注

02

文章 0 评论 0

关注

hs1283

文章 0 评论 0

关注

风向决定发型

文章 0 评论 0

关注

落花浅忆

文章 0 评论 0

友情链接

文江博客

如何从大数据中找出两条相同的信息

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

饮湿

明月

02

hs1283

风向决定发型

落花浅忆

友情链接

如何从大数据中找出两条相同的信息

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

饮湿

明月

02

hs1283

风向决定发型

落花浅忆

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。