Hive大数据去重:hive里面有两个表,各有200亿数据,去重

发布于 2022-03-09 08:50:11 字数 52 浏览 731 评论 3

hive里面有两个表,各有200亿数据,现在要对这些数据使用三个字段a,b,c去重合并成一张表,怎么搞?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

浮生未歇 2022-03-10 22:38:15

hash这个具体怎么使用?:flushed:

爱的故事 2022-03-10 22:36:05

回复
@那位先生_ : 网上文章很多阿. 举例一个简单的例子, 有十条数据, 你分hash配到10个内存地址, 那么理想状况下, 没个地址一个数据, 实际重复的会分配到重复的内存地址, 这时候比对下就可以去重复了

旧伤慢歌 2022-03-10 17:01:22

排序就会了, 或者用  空间换速度  使用 hash 算法

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文