当前位置：文江博客话题详情

理论上在 Hive 中可以实现并置连接 (a-la-netezza) 吗？

发布于 2024-11-28 04:51:42 字数 700 浏览 1 评论 0原文

当您连接分布在同一键上的表并在连接条件中使用这些键列时，netezza 中的每个 SPU（机器）将 100% 独立于其他设备工作（请参阅 nz-interview）。

在 hive 中，有bucketed map join，但是代表表到datanode是HDFS的责任，它不是根据hive CLUSTERED BY key完成的！

所以假设我有 2 个表，由相同的键聚集，并且我通过该键加入 - hive 可以从 HDFS 获得匹配的存储桶将位于同一节点上的保证吗？或者总是必须将小表的匹配存储桶移动到包含大表存储桶的数据节点？

谢谢，ido

（注意：这是我之前问题的更好措辞：hive/hadoop 如何确保每个映射器处理其本地数据？）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

无人问我粥可暖 2024-12-05 04:51:42

我认为不可能告诉 HDFS 在哪里存储数据块。
我可以考虑以下技巧，这适用于小型集群 - 将其中一个表的复制因子增加到接近或等于集群中节点数的数量。
因此，在连接过程中，适当的数据几乎总是（或总是）出现在所需的节点上。

回复收藏 0 原文

~没有更多了~

关于作者

若言繁花未落

暂无简介

0 文章

0 评论

24 人气

关注发私信

胡图图

文章 0 评论 0

关注

zt006

文章 0 评论 0

关注

z祗昰~

文章 0 评论 0

关注

冰葑

文章 0 评论 0

关注

野の

文章 0 评论 0

关注

天空

文章 0 评论 0

友情链接

文江博客

理论上在 Hive 中可以实现并置连接 (a-la-netezza) 吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

理论上在 Hive 中可以实现并置连接 (a-la-netezza) 吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。