平衡 HDFS 的想法 -> HBase 映射减少作业

发布于 12-11 09:25 字数 627 浏览 0 评论 0原文

对于客户，我一直在研究在 AWS EC2 上运行 Cloudera 风格的 hadoop 集群的短期可行性。在大多数情况下，结果都是预期的，逻辑卷的性能大多不可靠，也就是说，尽我所能，我已经让集群在这种情况下运行得相当好。

昨晚，我对他们的导入器脚本进行了完整测试，从指定的 HDFS 路径中提取数据并将其推送到 Hbase 中。他们的数据有些不寻常，因为每条记录不到 1KB，并且被压缩成 9MB 的 gzip 块。从 gzip 中提取的总共大约 500K 文本记录，经过健全性检查，然后推送到缩减器阶段。

该作业在环境的预期范围内运行（溢出记录的数量是我所预期的），但一个非常奇怪的问题是，当作业运行时，它使用 8 个减速器运行，但 2 个减速器完成 99% 的工作，而其余 6 个减速器完成 99% 的工作。工作的一小部分。

到目前为止，我未经测试的假设是，我在作业配置中缺少关键的洗牌或块大小设置，这导致大部分数据被推送到只能由 2 个减速器消耗的块中。不幸的是，上次我使用 Hadoop 时，另一个客户的数据集位于物理托管集群上的 256GB lzo 文件中。

为了澄清我的问题；有没有办法调整 M/R 作业以实际利用更多可用的减速器，方法是降低映射的输出大小或使每个减速器减少它将解析的数据量。即使在当前的 2 个减速器基础上增加 4 个减速器也将是一个重大改进。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

浊酒尽余欢2024-12-18 09:25:37

看起来你的减速器中出现了热点。这可能是因为某个特定的密钥非常受欢迎。作为映射器输出的键是什么？

这里有几个选择：

尝试更多的减速器。有时，您会在哈希的随机性中得到奇怪的伪影，因此拥有质数的减速器有时会有所帮助。这可能无法修复它。
编写一个自定义分区器来更好地分散工作。
找出为什么一堆数据被分成两个键。有没有办法让你的钥匙更加独特来分担工作？
您可以使用组合器做些什么来减少流向减速器的流量吗？

回复收藏 0 原文

~没有更多了~

关于作者

深陷

暂无简介

0 文章

0 评论

25 人气

关注发私信

友情链接

文江博客

平衡 HDFS 的想法 -> HBase 映射减少作业

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

束缚ｍ

alipaysp_VP2a8Q4rgx

α

一口甜

厌味

转身泪倾城

友情链接

平衡 HDFS 的想法 -> HBase 映射减少作业

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

束缚ｍ

alipaysp_VP2a8Q4rgx

α

一口甜

厌味

转身泪倾城

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。