文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
3.3 Hadoop 优化
表格 20 Hadoop 优化列表
优化内容 | 最佳实践 |
---|---|
mapper 的数量 | 运行 mapper 需要多长时间? |
reducer 的数量 | 为了达到最高性能,reducer 的数目应该比 reducer 槽(由内存和 tasktracker 槽决定)的数目稍微少一点,这将 reducer 使 reducer 能够在同一波中完成任务。 |
combiner | 作业能否充分利用 combiner 来减少通过 shuffle 传输的数据 |
中间值的产生 | 对 map 输出进行压缩能使作业执行更快 |
自定义序列 | 如果正在使用自定义的 writable 对象或自定义的 comparator,则必须确保已实现 RawComparator |
shuffle | Shuffle 可以对一些内存管理的参数进行调整,弥补性能不足。 |
本章参考
[1]. 使用 Eclipse 编译运行 MapReduce 程序
[2]. HBase shell 常用命令 http://blog.csdn.net/scutshuxue/article/details/6988348
[3]. Standalone Deploy Mode : simplest way to deploy Spark on a private cluster
[4]. Spark running-on-mesos Apache Mesos
[5]. Spark running-on-yarn Hadoop YARN
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论