内容来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

数据科学实战 PDF 文档

发布于 2024-10-16 15:40:21 字数 6094 浏览 32 评论 0

本书脱胎于哥伦比亚大学数据科学导论课程的教学讲义，它界定了数据科学的研究范畴，是一本注重人文精神，多角度、全方位、深入介绍数据科学的实用指南，堪称大数据时代的实战宝典。本书旨在让读者能够举一反三地解决重要问题，内容包括：数据科学及工作流程、统计模型与机器学习算法、信息提取与统计变量创建、数据可视化与社交网络、预测模型与因果分析、数据预处理与工程方法。另外，本书还将带领读者展望数据科学未来的发展。

本书适合所有希望通过数据分析解决问题的人阅读参考，包括数据科学家、金融工程师、统计学家、物理学家、学生及其他对数据科学感兴趣的人。

本书既介绍实践应用，也提出理论规范。一方面，本书介绍了一些业内顶尖数据科学家的日常工作内容，带大家看看他们在实践中如何应用数据科学知识，借此管中窥豹，了解这一学科目前的应用现状。另一方面，我们还将从学术角度去定义数据科学的研究范畴。

这不是一本关于机器学习的教科书。恰恰相反，本书会多角度、全方位、深入地介绍数据科学。它是对现有数据学科领域的纵览，试图为这一学科勾勒出一幅全景图。因此，在选择案例时，我们会更注重广度而非深度。

希望本书能够被那些善待它的人充分利用，举一反三，去解决那些重要的问题。

这门课在哥伦比亚大学讲完后，我听到了这样的评价：它是一门从人文主义角度全面讲解数据科学的课程。我们不仅关注工具、数学、模型、算法和代码，同时也很关注上述过程中的人性化考量。关于什么是人文主义者，我很喜欢如下的定义：“他十分关心人类的福祉，尊重个人的价值观，并且注重维护个体尊严。”如何在数据科学中体现人文主义？你在建模和设计算法时，认识到你作为个人所应起到的作用，想想哪些东西是人所具备而电脑不具备的，比如基于道德的判断；向世界公布一种新的统计模型前，想想会为他人的生活带来什么样的影响。

目录
作者介绍
关于封面图
前言
第 1 章简介：什么是数据科学
1.1 大数据和数据科学的喧嚣
1.2 冲出迷雾
1.3 为什么是现在
1.4 数据科学的现状和历史
1.5 数据科学的知识结构
1.6 思维实验：元定义
1.7 什么是数据科学家
1.7.1 学术界对数据科学家的定义
1.7.2 工业界对数据科学家的定义
第 2 章统计推断、探索性数据分析和数据科学工作流程
2.1 大数据时代的统计学思考
2.1.1 统计推断
2.1.2 总体和样本
2.1.3 大数据的总体和样本
2.1.4 大数据意味着大胆的假设
2.1.5 建模
2.2 探索性数据分析
2.2.1 探索性数据分析的哲学
2.2.2 练习：探索性数据分析
2.3 数据科学的工作流程
2.4 思维实验：如何模拟混沌
2.5 案例学习：RealDirect
2.5.1 RealDirect 是如何赚钱的
2.5.2 练一练：RealDirect 公司的数据策略
第 3 章算法
3.1 机器学习算法
3.2 三大基本算法
3.2.1 线性回归模型
3.2.2 k 近邻模型（k-NN）
3.2.3 k 均值算法
3.3 练习：机器学习算法基础
3.4 总结
3.5 思维实验：关于统计学家的自动化
第 4 章垃圾邮件过滤器、朴素贝叶斯与数据清理
4.1 思维实验：从实例中学习
4.1.1 线性回归为何不适用
4.1.2 k 近邻效果如何
4.2 朴素贝叶斯模型
4.2.1 贝叶斯法则
4.2.2 个别单词的过滤器
4.2.3 直通朴素贝叶斯
4.3 拉普拉斯平滑法
4.4 对比朴素贝叶斯和 k 近邻
4.5 Bash 代码示例
4.6 网页抓取：API 和其他工具
4.7 Jake 的练习题：文章分类问题中的朴素贝叶斯模型
第 5 章逻辑回归
5.1 思维实验
5.2 分类器
5.2.1 运行时间
5.2.2 你自己
5.2.3 模型的可解释性
5.2.4 可扩展性
5.3 逻辑回归：一个来自 M6D 的真实案例研究
5.3.1 点击模型
5.3.2 模型背后
5.3.3 α 和 β 的参数估计
5.3.4 牛顿法
5.3.5 随机梯度下降法
5.3.6 操练
5.3.7 模型评价
5.4 练习题
第 6 章时间戳数据与金融建模
6.1 Kyle Teague 与 GetGlue 公司
6.2 时间戳
6.2.1 探索性数据分析（EDA）
6.2.2 指标和新变量
6.2.3 下一步怎么做
6.3 轮到 Cathy O’Neill 了
6.4 思维实验
6.5 金融建模
6.5.1 样本期内外以及因果关系
6.5.2 金融数据处理
6.5.3 对数收益率
6.5.4 实例：标准普尔指数
6.5.5 如何衡量波动率
6.5.6 指数平滑法
6.5.7 金融模型的反馈
6.5.8 聊聊回归模型
6.5.9 先验信息量
6.5.10 一个小例子
6.6 练习：GetGlue 提供的时间戳数据
第 7 章从数据到结论
7.1 William Cukierski
7.1.1 背景介绍：数据科学竞赛
7.1.2 背景介绍：众包模式
7.2 Kaggle 模式
7.2.1 Kaggle 的参赛者
7.2.2 Kaggle 的客户
7.3 思维实验：关于作业自动评分系统
7.4 特征选择
7.4.1 例子：留住用户
7.4.2 过滤型
7.4.3 包装型
7.4.4 决策树与嵌入型变量选择
7.4.5 熵
7.4.6 决策树算法
7.4.7 如何在决策树模型中处理连续性变量
7.4.8 随机森林
7.4.9 用户黏性：模型的预测能力与可解释性
7.5 David Huffaker：谷歌社会学研究的新方法
7.5.1 从描述性统计到预测模型
7.5.2 谷歌的社交研究
7.5.3 隐私保护
7.5.4 思维实验：如何消除用户的顾虑
第 8 章构建面向大量用户的推荐引擎
8.1 一个真实的推荐引擎
8.1.1 最近邻算法回顾
8.1.2 最近邻模型的已知问题
8.1.3 超越近邻模型：基于机器学习的分类模型
8.1.4 高维度问题
8.1.5 奇异值分解（SVD）
8.1.6 关于 SVD 的重要特性
8.1.7 主成分分析（PCA）
8.1.8 交替最小二乘法
8.1.9 固定矩阵 V，更新矩阵 U
8.1.10 关于这些算法的一点思考
8.2 思维实验：如何过滤模型中的泡沫
8.3 练习：搭建自己的推荐系统
第 9 章数据可视化与欺诈侦测
9.1 数据可视化的历史
9.1.1 Gabriel Tarde
9.1.2 Mark 的思维实验
9.2 到底什么是数据科学
9.2.1 Processing
9.2.2 Franco Moretti
9.3 一个数据可视化的方案实例
9.4 Mark 的数据可视化项目
9.4.1 《纽约时报》大厅里的可视化：Moveable Type
9.4.2 屏幕上的生命：Cascade 可视化项目
9.4.3 Cronkite 广场项目
9.4.4 eBay 与图书网购
9.4.5 公共剧场里的“莎士比亚机”
9.4.6 这些展览的目的是什么
9.5 数据科学和风险
9.5.1 关于 Square 公司
9.5.2 支付风险
9.5.3 模型效果的评估问题
9.5.4 建模小贴士
9.6 数据可视化在 Square
9.7 Ian 的思维实验
9.8 关于数据可视化
第 10 章社交网络与数据新闻学
10.1 Morning Analytics 与社交网络
10.2 社交网络分析
10.3 关于社交网络分析的相关术语
10.3.1 如何衡量向心性
10.3.2 使用哪种向心性测度
10.4 思维实验
10.5 Morningside Analytics
10.6 从统计学的角度看社交网络分析
10.6.1 网络的表示方法与特征值向心度
10.6.2 随机网络的第一个例子：Erdos-Renyi 模型
10.6.3 随机网络的第二个例子：指数随机网络图模型
10.7 数据新闻学
10.7.1 关于数据新闻学的历史回顾
10.7.2 数据新闻报告的写作：来自专家的建议
第 11 章因果关系研究
11.1 相关性并不代表因果关系
11.1.1 对因果关系提问
11.1.2 干扰因子：一个关于在线约会网站的例子
11.2 OK Cupid 的发现
11.3 黄金准则：随机化临床实验
11.4 A/B 测试
11.5 退一步求其次：关于观察性研究
11.5.1 辛普森悖论
11.5.2 鲁宾因果关系模型
11.5.3 因果关系的可视化
11.5.4 定义：因果关系
11.6 三个小建议
第 12 章流行病学
12.1 Madigan 的学术背景
12.2 思维实验
12.3 统计学在现代
12.4 医学文献与观察性研究
12.5 分层法不解决干扰因子的问题
12.6 就没有更好的办法吗
12.7 研究性实验（OMOP）
12.8 最后的思维实验
第 13 章从竞赛中学到的：数据泄漏和模型评价
13.1 Claudia 作为数据科学家的知识结构
13.1.1 首席数据科学家的生活
13.1.2 作为一名女数据科学家
13.2 数据挖掘竞赛
13.3 如何成为出色的建模者
13.4 数据泄漏
13.4.1 市场预测
13.4.2 亚马逊案例学习：出手阔绰的顾客
13.4.3 珠宝抽样问题
13.4.4 IBM 客户锁定
13.4.5 乳腺癌检测
13.4.6 预测肺炎
13.5 如何避免数据泄漏
13.6 模型评价
13.6.1 准确度重要吗
13.6.2 概率的重要性，不是非 0 即 1
13.7 如何选择算法
13.8 最后一个例子
13.9 临别感言
第 14 章数据工程：MapReduce、Pregel、Hadoop
14.1 关于 David Crawshaw
14.2 思维实验
14.3 MapReduce
14.4 单词频率问题
14.5 其他 MapReduce 案例
14.6 Pregel
14.7 关于 Josh Wills
14.8 思维实验
14.9 给数据科学家的话
14.9.1 数据丰富和数据匮乏
14.9.2 设计模型
14.10 算算 Hadoop 的经济账
14.10.1 Hadoop 简介
14.10.2 Cloudera
14.11 Josh 的工作流程
14.12 如何开始使用 Hadoop
第 15 章听听学生们怎么说
15.1 重在过程
15.2 不再简单
15.3 援助之手
15.4 殊途同归
15.5 逢山开路，遇水架桥
15.6 作品展示
第 16 章下一代数据科学家、自大狂和职业道德
16.1 前面都讲了些什么
16.2 什么是数据科学（再问一次）
16.3 谁是下一代的数据科学家
16.3.1 成为解决问题的人
16.3.2 培养软技能
16.3.3 成为提问者
16.4 做一个有道德感的数据科学家
16.5 对于职业生涯的建议