使用首字母分区键连接两个表的这两个 Hive 查询是否存在性能差异？

发布于 2025-01-17 07:17:30 字数 348 浏览 4 评论 0原文

假设表 A 和 B 都将 mid_key 作为分区键。

方法一

SELECT *
FROM A
    JOIN B ON A .mid_key = B.mid_key
    AND A .mid = B.mid

方法二

SELECT *
FROM A
    JOIN B ON AND A .mid = B.mid

mid_key来自于SUBSTR(mid, 1, 1) AS mid_key，大约有五十个分区
表 A 和 B 大约有 6 亿行
第一个查询会更快吗？

原文

Suppose both table A and B have mid_key as their partition key.

Method 1

SELECT *
FROM A
    JOIN B ON A .mid_key = B.mid_key
    AND A .mid = B.mid

Method 2

SELECT *
FROM A
    JOIN B ON AND A .mid = B.mid

mid_key comes from SUBSTR(mid, 1, 1) AS mid_key, it has about fifty partitions
table A and B has about 600 million rows
Will the 1st query be faster?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

情痴 2025-01-24 07:17:30

第一个 sql 会执行得更好，因为 mid_key 上有一个分区键。

如果 mid_key 是分区键，那么它将在连接两个表时使用，并且 HDFS 扫描将仅选择两个表中都存在的分区并忽略其他分区。因此，由于 Hive 将分区键上的数据划分到单独的文件夹中，因此 I/O 更少，性能更快。

回复收藏 0 原文

~没有更多了~

关于作者

空城缀染半城烟沙

暂无简介

文章

27 人气

关注发私信

5040234068

文章 0 评论 0

关注

樱花雨梦

文章 0 评论 0

关注

≈。彩虹

文章 0 评论 0

关注

雨轻弹

文章 0 评论 0

关注

血之狂魔

文章 0 评论 0

关注

qq_0bIjwE

文章 0 评论 0

友情链接

文江博客

使用首字母分区键连接两个表的这两个 Hive 查询是否存在性能差异？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

5040234068

樱花雨梦

≈。彩虹

雨轻弹

血之狂魔

qq_0bIjwE

友情链接

使用首字母分区键连接两个表的这两个 Hive 查询是否存在性能差异？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

5040234068

樱花雨梦

≈。彩虹

雨轻弹

血之狂魔

qq_0bIjwE

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。