内容来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

数据科学入门 PDF 文档

发布于 2024-07-08 16:08:37 字数 4688 浏览 11 评论 0

本书基于易于理解且具有数据科学相关的丰富的库的 Python 语言环境，从零开始讲解数据科学工作。具体内容包括：Python 速成，可视化数据，线性代数，统计，概率，假设与推断，梯度下降法，如何获取数据，k 近邻法，朴素贝叶斯算法，等等。作者借助大量具体例子以及数据挖掘、统计学、机器学习等领域的重要概念，详细展示了什么是数据科学。

本书适合有志成为数据科学工作者以及想了解数据科学的读者阅读。

很多很多的数据科学库、框架、模块、工具箱可以有效地实现数据科学大部分常见的（和不常见的）算法与技术。如果你是一位数据科学家，就会非常熟悉 NumPy、scikit-learn、pandas 以及其他库。这些库对数据科学工作至关重要。如果还没有真正理解数据科学，运用这些库也是开始数据科学工作的好方式。

在本书中，我们从零开始着手数据科学工作。这意味着为了获得更好的理解，我们需要自己亲手构建工具和实现算法。我花费了很多心思选择注释良好、简洁易读的实现范例。在大部分情形下，所建立的工具意义清晰但实用性有限，它们对规模较小的示例数据集运转良好，但对“网络级别”的数据集就束手无策了。

目录
前言
第 1 章导论
1.1 数据的威力
1.2 什么是数据科学
1.3 激励假设：DataSciencester
1.3.1 寻找关键联系人
1.3.2 你可能知道的数据科学家
1.3.3 工资与工作年限
1.3.4 付费账户
1.3.5 兴趣主题
1.4 展望
第 2 章 Python 速成
2.1 基础内容
2.1.1 Python 获取
2.1.2 Python 之禅
2.1.3 空白形式
2.1.4 模块
2.1.5 算法
2.1.6 函数
2.1.7 字符串
2.1.8 异常
2.1.9 列表
2.1.10 元组
2.1.11 字典
2.1.12 集合
2.1.13 控制流
2.1.14 真和假
2.2 进阶内容
2.2.1 排序
2.2.2 列表解析
2.2.3 生成器和迭代器
2.2.4 随机性
2.2.5 正则表达式
2.2.6 面向对象的编程
2.2.7 函数式工具
2.2.8 枚举
2.2.9 压缩和参数拆分
2.2.10 args 和 kwargs
2.2.11 欢迎来到 DataSciencester
2.3 延伸学习
第 3 章可视化数据
3.1 matplotlib
3.2 条形图
3.3 线图
3.4 散点图
3.5 延伸学习
第 4 章线性代数
4.1 向量
4.2 矩阵
4.3 延伸学习
第 5 章统计学
5.1 描述单个数据集
5.1.1 中心倾向
5.1.2 离散度
5.2 相关
5.3 辛普森悖论
5.4 相关系数其他注意事项
5.5 相关和因果
5.6 延伸学习
第 6 章概率
6.1 不独立和独立
6.2 条件概率
6.3 贝叶斯定理
6.4 随机变量
6.5 连续分布
6.6 正态分布
6.7 中心极限定理
6.8 延伸学习
第 7 章假设与推断
7.1 统计假设检验
7.2 案例：掷硬币
7.3 置信区间
7.4 P-hacking
7.5 案例：运行 A/B 测试
7.6 贝叶斯推断
7.7 延伸学习
第 8 章梯度下降
8.1 梯度下降的思想
8.2 估算梯度
8.3 使用梯度
8.4 选择正确步长
8.5 综合
8.6 随机梯度下降法
8.7 延伸学习
第 9 章获取数据
9.1 stdin 和 stdout
9.2 读取文件
9.2.1 文本文件基础
9.2.2 限制的文件
9.3 网络抓取
9.3.1 HTML 和解析方法
9.3.2 案例：关于数据的 O’Reilly 图书
9.4 使用 API
9.4.1 JSON（和 XML）
9.4.2 使用无验证的 API
9.4.3 寻找 API
9.5 案例：使用 Twitter API
9.6 延伸学习
第 10 章数据工作
10.1 探索你的数据
10.1.1 探索一维数据
10.1.2 二维数据
10.1.3 多维数据
10.2 清理与修改
10.3 数据处理
10.4 数据调整
10.5 降维
10.6 延伸学习
第 11 章机器学习
11.1 建模
11.2 什么是机器学习
11.3 过拟合和欠拟合
11.4 正确性
11.5 偏倚-方差权衡
11.6 特征提取和选择
11.7 延伸学习
第 12 章 k 近邻法
12.1 模型
12.2 案例：最喜欢的编程语言
12.3 维数灾难
12.4 延伸学习
第 13 章朴素贝叶斯算法
13.1 一个简易的垃圾邮件过滤器
13.2 一个复杂的垃圾邮件过滤器
13.3 算法的实现
13.4 测试模型
13.5 延伸学习
第 14 章简单线性回归
14.1 模型
14.2 利用梯度下降法
14.3 最大似然估计
14.4 延伸学习
第 15 章多重回归分析
15.1 模型
15.2 最小二乘模型的进一步假设
15.3 拟合模型
15.4 解释模型
15.5 拟合优度
15.6 题外话：Bootstrap
15.7 回归系数的标准误差
15.8 正则化
15.9 延伸学习
第 16 章逻辑回归
16.1 问题
16.2 Logistic 函数
16.3 应用模型
16.4 拟合优度
16.5 支持向量机
16.6 延伸学习
第 17 章决策树
17.1 什么是决策树
17.2 熵
17.3 分割之熵
17.4 创建决策树
17.5 综合运用
17.6 随机森林
17.7 延伸学习
第 18 章神经网络
18.1 感知器
18.2 前馈神经网络
18.3 反向传播
18.4 实例：战胜 CAPTCHA
18.5 延伸学习
第 19 章聚类分析
19.1 原理
19.2 模型
19.3 示例：聚会
19.4 选择聚类数目 k
19.5 示例：对色彩进行聚类
19.6 自下而上的分层聚类
19.7 延伸学习
第 20 章自然语言处理
20.1 词云
20.2 n-grams 模型
20.3 语法
20.4 题外话：吉布斯采样
20.5 主题建模
20.6 延伸学习
第 21 章网络分析
21.1 中介中心度
21.2 特征向量中心度
21.2.1 矩阵乘法
21.2.2 中心度
21.3 有向图与 PageRank
21.4 延伸学习
第 22 章推荐系统
22.1 手工甄筛
22.2 推荐流行事物
22.3 基于用户的协同过滤方法
22.4 基于物品的协同过滤算法
22.5 延伸学习
第 23 章数据库与 SQL
23.1 CREATE TABLE 与 INSERT
23.2 UPDATE
23.3 DELETE
23.4 SELECT
23.5 GROUP BY
23.6 ORDER BY
23.7 JOIN
23.8 子查询
23.9 索引
23.10 查询优化
23.11 NoSQL
23.12 延伸学习
第 24 章 MapReduce
24.1 案例：单词计数
24.2 为什么是 MapReduce
24.3 更加一般化的 MapReduce
24.4 案例：分析状态更新
24.5 案例：矩阵计算
24.6 题外话：组合器
24.7 延伸学习
第 25 章数据科学前瞻
25.1 IPython
25.2 数学
25.3 不从零开始
25.3.1 NumPy
25.3.2 pandas
25.3.3 scikit-learn
25.3.4 可视化
25.3.5 R
25.4 寻找数据
25.5 从事数据科学
25.5.1 Hacker News
25.5.2 消防车
25.5.3 T 恤
25.5.4 你呢？