1.1 并行计算
并行计算是海量处理数据的有效手段。并行计算主要有三个方向,分别是:
- MPI:Message Passing Interface,消息传递接口是目前国际上通行的并行计算领域最流行的 API 规范。
- MapReduce:Map+Reduce,相比 MPI,就近计算,减少了数据的网络传输压力。
- Dryad: 微软 2007 年提出的并行计算模型,类似 MR。
处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,或处理刚刚摄入到系统中的数据。数据的计算则是指从大量单一数据点中提取信息和见解的过程。
根据处理方式不同可分为批处理和流式处理。
- 批处理:主要操作大容量静态数据集,并在计算过程完成后返回结果。
- 流式处理:对随时进入系统的数据进行计算。
流处理:CEP~Complex Event Processing 复杂事件处理,开源实现如 Esper
批处理:BSP~Bulk Synchronous Parallel 批量同步并行,开源实现如 Pregel, Apache Hama。
数据倾斜问题
大数据计算可能有数据倾斜问题(即数据集中到部分机器),解决方法通常有
- 调节参数:如 MR 中的 hive.map.aggr、hive.groupby.skewindata 都设置为 true。当发生数据倾斜时,可进行负载均衡。
- 优化 SQL 语句: 如 mapjoin 优化(小表和大表 join 时,先小表操作,再大表)、空值优化、group by 优化
- 特殊情况特殊处理
HPCC~高性能计算与通信
HPCC ,High Performance Computing and Communications(高性能计算与通信)的缩写。1993 年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与 通信”的报告,也就是被称为 HPCC 计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC 是美国 实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆 比特网络技术,扩展研究和教育机构及网络连接能力。
图 HPCC 架构图
该项目主要由五部分组成 :
1、高性能计算机系统(HPCS),内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;
2、先进软件技术与算法(ASTA),内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;
3、国家科研与教育网格(NREN),内容有中接站及 10 亿位级传输的研究与开发;
4、基本研究与人类资源(BRHR),内容有基础研究、培训、教育及课程教材,被设计通过奖励调查者-开始的,长期 的调查在可升级的高性能计算中来增加创新意识流,通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营,和来提供必需的基础架构来支 持这些调查和研究活动;
5、信息基础结构技术和应用(IITA ),目的在于保证美国在先进信息技术开发方面的领先地位。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论