内容来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

Spark 高级数据分析第2版 PDF 文档

发布于 2024-07-22 07:39:07 字数 3456 浏览 52 评论 0

本书是使用 Spark 进行大规模数据分析的实战宝典，由知名数据科学家撰写。本书在第 1 版的基础上，针对 Spark 近年来的发展，对样例代码和所使用的资料进行了大量更新。新版 Spark 使用了全新的核心 API，MLlib 和 Spark SQL 两个子项目也发生了较大变化，本书为关注 Spark 发展趋势的读者提供了与时俱进的资料，例如 Dataset 和 DataFrame 的使用，以及与 DataFrame API 高度集成的 Spark ML API。

本书适合从事数据分析的各类专业人员阅读。

本书开篇介绍了 Spark 的基础知识，然后详细介绍了如何将 Spark 应用到各个行业。与许多图书只着重描述最终方案不同，本书作者在介绍案例时把解决问题的整个过程也展现了出来。在介绍一个主题时，并不是一开始就给出最终方案，而是先给出一个最初并不完善的方案，然后指出方案的不足，引导读者思考并逐步改进，最终得出一个相对完善的方案。这体现了工程问题的解决思路，也体现了大数据分析是一个迭代的过程。这样的论述方式更能激发读者的思考，这一点实在难能可贵。

目录
前言
第 1 章大数据分析
1.1 数据科学面临的挑战
1.2 认识 Apache Spark
1.3 关于本书
1.4 第 2 版说明
第 2 章用 Scala 和 Spark 进行数据分析
2.1 数据科学家的 Scala
2.2 Spark 编程模型
2.3 记录关联问题
2.4 小试牛刀：Spark shell 和 SparkContext
2.5 把数据从集群上获取到客户端
2.6 把代码从客户端发送到集群
2.7 从 RDD 到 DataFrame
2.8 用 DataFrame API 来分析数据
2.9 DataFrame 的统计信息
2.10 DataFrame 的转置和重塑
2.11 DataFrame 的连接和特征选择
2.12 为生产环境准备模型
2.13 评估模型
2.14 小结
第 3 章音乐推荐和 Audioscrobbler 数据集
3.1 数据集
3.2 交替最小二乘推荐算法
3.3 准备数据
3.4 构建第一个模型
3.5 逐个检查推荐结果
3.6 评价推荐质量
3.7 计算 AUC
3.8 选择超参数
3.9 产生推荐
3.10 小结
第 4 章用决策树算法预测森林植被
4.1 回归简介
4.2 向量和特征
4.3 样本训练
4.4 决策树和决策森林
4.5 Covtype 数据集
4.6 准备数据
4.7 第一棵决策树
4.8 决策树的超参数
4.9 决策树调优
4.10 重谈类别型特征
4.11 随机决策森林
4.12 进行预测
4.13 小结
第 5 章基于 K 均值聚类的网络流量异常检测
5.1 异常检测
5.2 K 均值聚类
5.3 网络入侵
5.4 KDD Cup 1999 数据集
5.5 初步尝试聚类
5.6 k 的选择
5.7 基于 SparkR 的可视化
5.8 特征的规范化
5.9 类别型变量
5.10 利用标号的熵信息
5.11 聚类实战
5.12 小结
第 6 章基于潜在语义分析算法分析维基百科
6.1 文档-词项矩阵
6.2 获取数据
6.3 分析和准备数据
6.4 词形归并
6.5 计算 TF-IDF
6.6 奇异值分解
6.7 找出重要的概念
6.8 基于低维近似的查询和评分
6.9 词项-词项相关度
6.10 文档-文档相关度
6.11 文档-词项相关度
6.12 多词项查询
6.13 小结
第 7 章用 GraphX 分析伴生网络
7.1 对 MEDLINE 文献引用索引的网络分析
7.2 获取数据
7.3 用 Scala XML 工具解析 XML 文档
7.4 分析 MeSH 主要主题及其伴生关系
7.5 用 GraphX 来建立一个伴生网络
7.6 理解网络结构
7.6.1 连通组件
7.6.2 度的分布
7.7 过滤噪声边
7.7.1 处理 EdgeTriplet
7.7.2 分析去掉噪声边的子图
7.8 小世界网络
7.8.1 系和聚类系数
7.8.2 用 Pregel 计算平均路径长度
7.9 小结
第 8 章纽约出租车轨迹的空间和时间数据分析
8.1 数据的获取
8.2 基于 Spark 的第三方库分析
8.3 基于 Esri Geometry API 和 Spray 的地理空间数据处理
8.3.1 认识 Esri Geometry API
8.3.2 GeoJSON 简介
8.4 纽约市出租车客运数据的预处理
8.4.1 大规模数据中的非法记录处理
8.4.2 地理空间分析
8.5 基于 Spark 的会话分析
构建会话：基于 Spark 的二级排序
8.6 小结
第 9 章基于蒙特卡罗模拟的金融风险评估
9.1 术语
9.2 VaR 计算方法
9.2.1 方差-协方差法
9.2.2 历史模拟法
9.2.3 蒙特卡罗模拟法
9.3 我们的模型
9.4 获取数据
9.5 数据预处理
9.6 确定市场因素的权重
9.7 采样
多元正态分布
9.8 运行试验
9.9 回报分布的可视化
9.10 结果的评估
9.11 小结
第 10 章基因数据分析和 BDG 项目
10.1 分离存储与模型
10.2 用 ADAM CLI 导入基因学数据
Parquet 格式和列式存储
10.3 从 ENCODE 数据预测转录因子结合位点
10.4 查询 1000 Genomes 项目中的基因型
10.5 小结
第 11 章基于 PySpark 和 Thunder 的神经图像数据分析
11.1 PySpark 简介
深入 PySpark
11.2 Thunder 工具包概况和安装
11.3 用 Thunder 加载数据
Thunder 核心数据类型
11.4 用 Thunder 对神经元进行分类
11.5 小结