大数据项目管理:从规划到实现 PDF 文档
本书提供了一个框架,从整体上介绍与大数据项目开发相关的基本概念,帮助读者评估大数据项目,理解成功的现代数据项目的基本要素。全书共 8 章,内容包括现代数据项目的主要类型、生命周期、风险管理、接口设计、分布式存储系统、元数据管理、数据处理等。本书旨在让读者厘清思路,顺利地从数据项目的规划阶段走到执行阶段,实现健壮、可维护的架构和解决方案。
本书适合首席信息官、首席运营官、技术主管、系统架构师及相关的开发人员阅读。
既然你开始阅读本书,那么就应该知道,近几年来,数据管理领域发生了巨大的变化。我们已经看到了从第三方专有解决方案到新的开源分布式数据系统的转变。通常使用大数据来指代这些新的解决方案(我们发现这个词的指代作用越来越弱),但其实早期的很多专有系统也采用了可以存储和处理大量数据的分布式架构。
尽管这些专有解决方案和新的开源解决方案都可以用来解决很多相同的问题,但它们之间存在一些明显的差异,这些差异促成了新系统的发展。这些差异不仅体现在开源的经济性方面,也与技术的发展有关。技术的发展促进了新系统的实现,而如果使用以前的解决方案来实现这些系统颇具挑战性。
目录
前言
第 1 章 数据项目的主要类型及考虑因素
1.1 数据项目的主要类型
1.2 数据管道和数据暂存
1.2.1 主要考虑因素和风险管理
1.2.2 数据管道和数据暂存团队的人员组成
1.3 数据的处理和分析
1.3.1 主要考虑因素和风险管理
1.3.2 数据处理和分析团队的人员组成
1.4 应用程序开发
1.4.1 主要考虑因素和风险管理
1.4.2 应用程序开发团队的人员组成
1.5 小结
第 2 章 评估和选择数据管理解决方案
2.1 开源项目的阶段
2.1.1 孵化阶段
2.1.2 发布阶段
2.1.3 治愈癌症阶段
2.1.4 打破承诺阶段
2.1.5 强化阶段
2.1.6 企业阶段
2.1.7 终结阶段
2.2 开源项目的常见生命周期
2.2.1 使产品起死回生
2.2.2 追随者
2.3 评估基准测试
2.4 技术选型的考虑因素
2.4.1 了解构建块
2.4.2 寻求建议
2.4.3 从分析师那里获得见解
2.4.4 研究市场趋势
2.5 小结
第 3 章 数据项目的风险管理
3.1 风险类型
3.1.1 技术风险
3.1.2 团队风险
3.1.3 需求风险
3.2 风险管理
3.2.1 对架构中的风险进行分类
3.2.2 技术风险
3.2.3 团队的优势
3.2.4 外部团队风险
3.2.5 需求风险
3.2.6 融会贯通
3.3 使用原型和 PoC
3.3.1 找到两三种方法
3.3.2 进行 PoC,然后丢弃
3.3.3 部署的注意事项
3.4 使用接口
3.5 尽早开始构建
3.6 频繁测试并保留记录
3.7 监控和警报
3.8 沟通风险
3.8.1 合作并获得信任
3.8.2 公开风险
3.9 将风险作为谈判工具
3.10 小结
第 4 章 接口设计
4.1 人体
4.1.1 人体与数据架构
4.1.2 解耦
4.1.3 解耦注意事项
4.1.4 专门化
4.2 什么造就了好的接口设计
4.2.1 合约
4.2.2 抽象
4.2.3 版本控制
4.2.4 防御
4.2.5 接口的文档和命名
4.3 非功能性考虑因素
4.3.1 可用性
4.3.2 响应时间
4.3.3 负载容量
4.3.4 使用测试来确定 SLA
4.4 通用接口示例
4.4.1 发布–订阅
4.4.2 异步请求–响应
4.4.3 同步请求–响应
4.5 小结
第 5 章 分布式存储系统
5.1 分布式存储系统的属性
5.1.1 谱系
5.1.2 分区
5.1.3 处理数据变更
5.1.4 读取路径
5.1.5 可用性与一致性
5.1.6 主要用例
5.2 存储系统细分
5.2.1 HDFS
5.2.2 S3 和对象存储系统
5.2.3 Apache HBase
5.2.4 Apache Cassandra
5.2.5 Elasticsearch 和 Apache Solr
5.2.6 新进者:Apache Kudu 和 CockroachDB
5.2.7 内存存储系统
5.3 小结
第 6 章 企业元数据
6.1 为什么要关注元数据
6.1.1 数据可见性
6.1.2 数据之间的关系
6.1.3 数据监管
6.2 数据架构中的元数据类型
6.2.1 静态数据
6.2.2 动态数据
6.2.3 数据源的元数据
6.2.4 有关数据处理的元数据
6.2.5 报告和仪表盘
6.3 元数据收集
6.3.1 声明式元数据收集
6.3.2 发现式元数据收集
6.4 元数据管理实践
6.5 小结
第 7 章 确保数据完整性
7.1 构建数据管道
预定义数据管道
7.2 验证数据管道
7.2.1 行数
7.2.2 唯一计数
7.2.3 全字节比较
7.2.4 校验和比较
7.3 小结
第 8 章 数据处理
8.1 处理引擎的属性
8.1.1 DAG 管理
8.1.2 计算隔离
8.1.3 性能
8.1.4 容错
8.1.5 交互模型
8.1.6 批处理或流处理
8.2 数据处理演变史
8.3 小结
关于作者
关于封面
下载地址:https://www.wenjiangs.com/wp-content/uploads/2024/03/uAZEZeLpk0vcyDNC.zip
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论