返回介绍

3.3 Hadoop 优化

发布于 2024-09-23 22:13:01 字数 1294 浏览 0 评论 0 收藏 0

表格 20 Hadoop 优化列表

优化内容最佳实践
mapper 的数量运行 mapper 需要多长时间?
reducer 的数量为了达到最高性能,reducer 的数目应该比 reducer 槽(由内存和 tasktracker 槽决定)的数目稍微少一点,这将 reducer 使 reducer 能够在同一波中完成任务。
combiner作业能否充分利用 combiner 来减少通过 shuffle 传输的数据
中间值的产生对 map 输出进行压缩能使作业执行更快
自定义序列如果正在使用自定义的 writable 对象或自定义的 comparator,则必须确保已实现 RawComparator
shuffleShuffle 可以对一些内存管理的参数进行调整,弥补性能不足。

本章参考

[1]. 使用 Eclipse 编译运行 MapReduce 程序

[2]. HBase shell 常用命令 http://blog.csdn.net/scutshuxue/article/details/6988348

[3]. Standalone Deploy Mode : simplest way to deploy Spark on a private cluster

[4]. Spark running-on-mesos Apache Mesos

[5]. Spark running-on-yarn Hadoop YARN

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文