文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

1.2 大数据架构

发布于 2024-09-24 22:58:59 字数 2669 浏览 0 评论 0 收藏 0

1.2.1 大数据参考架构一（工信部）

来自于工信部《大数据标准化白皮书（2014）》

大数据技术参考模型表示了通用的、技术无关的大数据系统的逻辑功能模块以及模块之间的互操作接口（如：服务）。

大数据技术参考模型基于代表大数据价值链的两个维度组成：信息流（垂直维）和 IT 集成（水平维）。在信息流维度上，价值通过数据采集、集成、分析、使用结果来实现。在 IT 维度上，价值通过为大数据应用的实施提供拥有或运行大数据的网络、基础设施、平台、应用工具以及其他 IT 服务来实现。大数据应用提供者模块是在两个维的交叉点上，表明大数据分析和其实施是为两个价值链上大数据利益相关者提供的特定价值。

五个主要的架构模块代表在每个大数据系统中存在的不同技术角色：数据提供者、数据消费者、大数据处理提供者、大数据框架提供者、系统协调者。另外两个架构模块是安全隐私和管理，代表能为大数据系统其他模块提供服务和功能的构件。这两个关键功能极其重要，因此也被集成在任何大数据解决方案中。

在数据提供者模块中，提供者应该包含业务、感知、互联网和第三方数据四个种类。

业务数据提供者提供传统信息系统中存在并动态产生的大量的结构化数据和异构数据
感知数据提供者提供由物联感知设备实时生成的大量数据；
互联网数据提供者提供由互联网应用快速生成的大量的非结构化数据；
第三方数据提供者则是提供政府、学术界、商业机构逐步对外开放了一些可维护管理、可信的数据集。

在数据提供者模块中，提供者应该包含业务、感知、互联网和第三方数据四个种类。其中业务数据提供者提供传统信息系统中存在并动态产生的大量的结构化数据和异构数据；感知数据提供者提供由物联感知设备实时生成的大量数据；互联网数据提供者提供由互联网应用快速生成的大量的非结构化数据；而第三方数据提供者则是提供政府、学术界、商业机构逐步对外开放了一些可维护管理、可信的数据集。

对于数据消费者模块，我们将其分解为业务应用和数据服务平台。

1.2.2 大数据参考架构二

图 6 大数据处理的关键架构图

说明：

文件系统层：在这一层里，分布式文件系统需具备存储管理、容错处理、高可扩展性、高可靠性和高可用性等特性。
数据存储层：由于目前采集到的数据，十之有七八为非结构化和半结构化数据，数据的表现形式各异，有文本的、图像的、音频的、视频的等，因此常见的数据存储也要对应有多种形式，有基于键值（Key-Value）的，有基于文档（Document），还有基于列（Column）和图表（Graph）的。如果采用单一的数据库引擎，“一刀切式”的满足所有类型的数据存储需求，通常会严重降低数据库管理的性能。因此，我们需要“兵来将挡，水来土掩”式的、多元的（ Polyglot ）数据库解决方案。
资源管理层：这一层是为了提高资源的高利用率和吞吐量，以到达高效的资源管理与调度目的。
资源协调层：在本层的系统，需要完成对资源的状态、分布式协调、一致性和资源锁实施管理。
计算框架层：在本层的计算框架非常庞杂，有很多高度专用的框架包含其内，有流式的，交互式的，实时的，批处理和迭代图的（Batch and Iterative Graph，BSP）等。为这些计算框架提供支撑的是运行时引擎，如 BDAS 【2】(Spark) 和 Flink 等（注：这里的 BDAS 是指“Berkeley Data Analytics Stack”，即伯克利数据分析栈。文献【2】为 Spark 核心作者 Ion Stoica 的讲座幻灯片文档）。
数据分析层：在这一层里，主要包括数据分析（消费) 工具和一些数据处理函数库。这些工具和函数库，可提供描述性的、预测性的或统计性的数据分析功能及机器学习模块。
数据集成层：在这一层里，不仅包括管理数据分析工作流中用到的各种适用工具，除此之外，还包括对元数据（Metadata）管理的工具。
操作框架层：这一层提供可扩展的性能监测管理和基准测试框架。

1.2.3 BDAS

BDAS, the Berkeley Data Analytics Stack（伯克利的数据分析栈）, is an open source software stack that integrates software components being built by the AMPLab to make sense of Big Data. ^[2]