Amazon EMR 相关最佳实践 PDF 文档
Amazon Web Services (简称 AWS)云能够加快大数据分析速度。其提供即时可扩展与弹性能力,允许大家将注意力集中在分析而非基础设施构建及维护身上。无论大家需要检索的是大规模数据集抑或对海量科学数据乃至点击流日志进行分析,AWS 都能够提供一系列大数据工具及服务,帮助您顺畅处理几乎全部数据密集型项目。
Amazon Elastic MapReduce (简称 EMR)正是此类服务之一,其立足于 Amazon Elastic Compute Cloud(即 Amazon 弹性计算云,简称 EC2)提供全面托管的 Hadoop 框架。在本份白皮书中,我们将着重探讨将数据移动至 AWS 以及收集与聚合数据层面的最佳实践,同时阐述 Amazon EMR 集群当中可实现快速处理的各类常见设置与配置架构模式。我们还将探讨一系列性能与成本优化技术,可帮助大家以高通量、低成本的可靠模式实现大规模数据的处理与分析。
目录
摘要.. 3
简介 . 3
将数据迁移至 AWS. 4
场景一:将大规模数据由 HDFS(数据中心)迁移至 Amazon S3 ..... 4
使用 S3DistCp . 4
使用 DistCp ..... 6
场景二:将大规模数据由本地磁盘(非 HDFS)迁移至 Amazon S3 . 6
使用 Jets3t Java 库 ..... 6
使用 GNU Parallel . 7
使用 Aspera Direct-to-S3 ... 7
使用 AWS Import/Export ... 8
使用 AWS Direct Connect .. 9
场景三:将大规模数据由 Amazon S3 迁移至 HDFS 10
使用 S3DistCp ..... 10
使用 DistCp ... 11
数据收集.. 11
使用 Apache Flume . 11
使用 Fluentd 12
数据聚合 .... 12
利用 Apache Flume 进行数据聚合 13
数据聚合最佳实践. 13
最佳实践 1: 聚合数据的大小.. 15
最佳实践 2: 控制数据聚合大小 . 15
最佳实践 3: 数据压缩算法 . 15
最佳实践 4: 数据分区 . 18
利用 Amazon EMR 处理数据 . 19
选择正确的实例大小 .... 19
为您的任务选择正确的实例数量 ... 20
确定任务所必需的映射器数量 .... 21
Amazon EMR 集群类型 ... 22
瞬时 Amazon EMR 集群
永久 Amazon EMR 集群... 23
常见 Amazon EMR 架构 23
模式 1: 利用 Amazon S3 取代 HDFS 24
模式 2: Amazon S3 与 HDFS .... 25
模式 3: HDFS 与 Amazon S3 作为备份存储 ..... 26
模式 4: 弹性 Amazon EMR 集群(手动) ... 27
模式 5: 弹性 Amazon EMR 集群 (动态) . 27
Amazon EMR 与 Amazon EC2 成本优化 29
EC2 现货实例成本优化. 32
性能优化(高级). 33
性能改进建议 .. 34
映射任务改进.. 34
归约任务改进 .... 35
利用 Ganglia 进行性能优化.. 35
定位 Hadoop 指标. 37
总结.. 37
扩展阅读与后续议题 37
附录一:Amazon S3 相较于 HDFS 的比较优势.. 38
下载地址: https://www.wenjiangs.com/wp-content/uploads/2023/01/E8xs3M2kRFCt1zWr.zip
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论