返回介绍

1.1 概述

发布于 2024-09-24 22:58:59 字数 4598 浏览 0 评论 0 收藏 0

大数据 Big Data:最初是在 2011 年 5 月,EMC World 2011 会议中,EMC 抛出了 Big Data 的概念。

大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或 EB 的大小。这些数 据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频 和图像档案,及大型电子商务。

在大数据和大数据分析,他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。

大数据可以概括为 4 个 V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值密度低(Veracity)。大数据作为时下最火热的 IT 行业的 词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。

数据处理流程:采集预处理 -- 存储 --(检索、分析、共享)-- 展现。

大数据底层技术

  • 分布式计算
  • 分布式通信
  • 内存计算
  • 列存储
  • 库内计算

大数据 BI:并不仅仅是数据展现

  1. 要能够掌握情况、分析问题、找到答案。
  2. 前端系统的交互和分析能力要强大:过滤(Filter)、钻取(Drill)、刷取(Brush)、缩放(Zoom)、关联(Associate)、变换(Transform)、动态计算(Dynamic Calculation)、链接(Link)。
  3. 数据挖掘、预测将变成重要的需求。

解决方案:Hadoop(MAPREDUCE 技术)、MongoDB,流计算(Twitter)

数据存储

  • 结构化数据:海量数据的查询、统计、更新等操作效率低。
  • 非结构化数据:图片、视频、WORD、PDF、PPT 等文件存储,不利于检索。
  • 半结构化数据:转化为结构为数据或者按照非结构化存储。

1.1.1 数据金字塔

image-20191204220635262

图 1 数据金字塔~数据、信息、知识与智慧的关系[1]

数据、 信息知识 依赖于语境、依赖于接收者本身,三者之间的区别并非泾渭分明。

  • 数据是记录下来可以被鉴别的符号。它是最原始的素材(如数字、文字、图像、符号等),未被加工解释,没有回答特定的问题,没有任何意义。
  • 信息是已经被处理、具有逻辑关系的数据。它是对数据的解释,使得数据具有意义。信息可以对某些简单的问题给予解答,譬如:谁?什么?哪里?什么时候?
  • 知识是从相关信息中过滤、提炼及加工而得到的有用资料。它不是信息的简单累加,往往还需要加入基于以往的经验所作的判断。因此,知识可以解决较为 复杂的问题,可以回答“如何?”的问题,能够积极地指导任务的执行和管理,进行决策和解决问题。特殊背景/语境下,知识将数据与信息、信息与信息在行动中 的应用之间建立有意义的联系,它体现了信息的本质、原则和经验。此外,知识基于推理和分析,还可能产生新的知识。
  • 智慧,是人类所表现出来的一种独有的能力,主要表现为收集、加工、应用、传播知识的能力,以及对事物发展的前瞻性看法。在知识的基础之上,通过经验、阅历、见识的累积,而形成的对事物的深刻认识、远见,体现为一种卓越的判断力。

1.1.2 大数据处理技术演进

image-20191204220711998

图 2 大数据处理技术演进

备注:

  • SMP~对称多处理(Symmetrical Multi-Processing)技术,是指在一个计算机上汇集了一组处理器(多 CPU),各 CPU 之间共享内存子系统以及总线结构。
  • MPP~大规模并行处理(Massively Parallel Processor )。
  • Share Everything~什么都共享,如内存、CPU。
  • Share Nothing~都不共享。

1.1.3 大数据架构演进

  • Lambda -该架构是经典的大数据处理范式,是由南森马兹(Nathan Marz)提出的一个实时大数据处理框架。更多有关 Lamda 的信息,请读者访问 Lambda 官方网站。(注:文献【3】是由 James Kinley 在轻博客网站 Tumblr 发表的一篇博文:Lambda 架构:构架实时大数据系统的原则)。
  • Kappa-该计算构架可视为 Lambda 的一个强有力替代者,Kappa 将数据处理的上游移至流式层(注:文献【4】是一篇博客文章,作者是 Jay Kreps 是 Linkedln 的一名在线数据架构技术高管。Kreps 认为,虽然 Lambda 构架的理念很有价值,但终究还是一个临时解决方案。他设计了 一个替代架构 Kappa,是基于他在 Linkedin 构建 Kafka 和 Samza 的经验设计而成)。
  • SummingBird-这是一个参考模型,用来桥接在线处理模式和传统处理模式。Summingbird 是由 Twitter(推特)公司用 Scala 语言开发的、并开源的大规模数据处理框架,支持开发者以批处理模式(基于 Hadoop)或流处理模式(基于 Storm),或混合模式(即前两种 模式的组合)以统一的方式执行代码。(注:文献【5】是 Summingbird 的主要设计者 Oscar Boykin、Sam Ritchie 等人于 2014 年发表于知名期刊 PVLDB 中论文,其中论文的二作 Sam Ritchie 大有来头,他是计算机科学界的传奇人物、C 语言和 Unix 的设计者 Dennis Ritchie 的侄子)。

表格 1 大数据架构比较

 简介优点缺点
Hadoop第一代大数据架构,使用 MR 引擎。可用计算引擎固定。
Lambda实时和批处理采用不同的计算框架。稳定,把实时和离线计算的峰值分离。两套计算框架会发生计算结果不一致的数据口径问题。LOT 时代批处理无法在计算窗口完成。
KappyLinkedIn 的 Jay Krep 提出 Kappa 架构。其核心思想是通过改进流计算系统来解决数据全量处理的问题,使得实时计算和批处理过程使用同一套代码。解决了 Lamba 的数据口径问题。流式处理无法应对高吞吐量。开发周期长。服务器成本浪费。
IOTA来自于 CSDN 博客~产业智能官,尚未有业界案例。去 ETL。AD-hoc。边缘计算。 

image-20191204220741499

图 3 Lambda 架构

备注:Lambda 数据架构成为每一个公司大数据平台必备的架构,它解决了一个公司大数据批量离线处理和实时数据处理的需求。

  • 优点是稳定,对于实时计算部分的计算成本可控,批量处理可以用晚上的时间来整体批量计算,这样把实时计算和离线计算高峰分开,这种架构支撑了数据行业的早期发展。
  • 缺点:实时与批量计算结果不一致引起的数据口径问题。批量计算在计算窗口内无法完成。数据源变化都要重新开发,开发周期长。服务器存储大。

image-20191204220804987

图 4 大数据 Kappy 架构

image-20191204220820227

图 5 大数据 IOTA 架构

IOTA 整体技术结构分为几部分:

  • Common Data Model:贯穿整体业务始终的数据模型,这个模型是整个业务的核心,要保持 SDK、cache、历史数据、查询引擎保持一致。
  • Edge SDKs & Edge Servers:这是数据的采集端,在复杂的计算情况下,会赋予 SDK 更复杂的计算,在设备端就转化为形成统一的数据模型来进行传送。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文