使用spark或者hadoop删除重复的双向关系数据
我有一批数据(100亿)如下,
ID FROM TO
1 A B
2 A C
3 B A
4 C A
删除重复的双向关系数据如下
ID FROM TO
1 A B
2 A C
1、因为数据量太大,bloomfilter已经不太合适了;
2、使用数据库查询去重复效率又太低下;
3、用spark或者hadoop处理这样海量的数据,是不是会比较合适?网络上找到的去重方案都是类似使用groupby某个字段去重复,这对于我这数据意义不大啊。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
可以用 Spark,把 FROM 和 TO 两个字段排序,第一份数据变成
然后再去重或 reduce 就行了