内容来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

机器学习实战 PDF 文档

发布于 2024-08-28 09:07:37 字数 5547 浏览 41 评论 0

机器学习是人工智能研究领域中的一个极其重要的方向。在现今大数据时代的背景下，捕获数据并从中萃取有价值的信息或模式，使得这一过去为分析师与数学家所专属的研究领域越来越为人们瞩目。

本书通过精心编排的实例，切入日常工作任务，摒弃学术化语言，利用高效可复用的 Python 代码阐释如何处理统计数据，进行数据分析及可视化。读者可从中学到一些核心的机器学习算法，并将其运用于某些策略性任务中，如分类、预测及推荐等。

本书适合机器学习相关研究人员及互联网从业人员学习参考。

本书讲述重要的机器学习算法，并介绍那些使用这些算法的应用和工具，以及如何在实际环境中使用它们。市面上已经出版了很多关于机器学习的书籍，大多数讨论的是其背后的数学理论，很少涉及如何使用编程语言实现机器学习算法。本书恰恰相反，更多地讨论如何编码实现机器学习算法，而尽量减少讨论数学理论。如何将数学矩阵描述的机器学习算法转化为可以实际工作的应用程序，是本书的主要目的。

目录
第一部分分类
第 1 章机器学习基础
1.1 何谓机器学习
1.1.1 传感器和海量数据
1.1.2 机器学习非常重要
1.2 关键术语
1.3 机器学习的主要任务
1.4 如何选择合适的算法
1.5 开发机器学习应用程序的步骤
1.6 Python 语言的优势
1.6.1 可执行伪代码
1.6.2 Python 比较流行
1.6.3 Python 语言的特色
1.6.4 Python 语言的缺点
1.7 NumPy 函数库基础
1.8 本章小结
第 2 章 k-近邻算法
2.1 k-近邻算法概述
2.1.1 准备：使用 Python 导入数据
2.1.2 从文本文件中解析数据
2.1.3 如何测试分类器
2.2 示例：使用 k-近邻算法改进约会网站的配对效果
2.2.1 准备数据：从文本文件中解析数据
2.2.2 分析数据：使用 Matplotlib 创建散点图
2.2.3 准备数据：归一化数值
2.2.4 测试算法：作为完整程序验证分类器
2.2.5 使用算法：构建完整可用系统
2.3 示例：手写识别系统
2.3.1 准备数据：将图像转换为测试向量
2.3.2 测试算法：使用 k-近邻算法识别手写数字
2.4 本章小结
第 3 章决策树
3.1 决策树的构造
3.1.1 信息增益
3.1.2 划分数据集
3.1.3 递归构建决策树
3.2 在 Python 中使用 Matplotlib 注解绘制树形图
3.2.1 Matplotlib 注解
3.2.2 构造注解树
3.3 测试和存储分类器
3.3.1 测试算法：使用决策树执行分类
3.3.2 使用算法：决策树的存储
3.4 示例：使用决策树预测隐形眼镜类型
3.5 本章小结
第 4 章基于概率论的分类方法：朴素贝叶斯
4.1 基于贝叶斯决策理论的分类方法
4.3 使用条件概率来分类
4.4 使用朴素贝叶斯进行文档分类
4.5 使用 Python 进行文本分类
4.5.1 准备数据：从文本中构建词向量
4.5.2 训练算法：从词向量计算概率
4.5.3 测试算法：根据现实情况修改分类器
4.5.4 准备数据：文档词袋模型
4.6 示例：使用朴素贝叶斯过滤垃圾邮件
4.6.1 准备数据：切分文本
4.6.2 测试算法：使用朴素贝叶斯进行交叉验证
4.7 示例：使用朴素贝叶斯分类器从个人广告中获取区域倾向
4.7.1 收集数据：导入 RSS 源
4.7.2 分析数据：显示地域相关的用词
4.8 本章小结
第 5 章 Logistic 回归
5.1 基于 Logistic 回归和 Sigmoid 函数的分类
5.2 基于最优化方法的最佳回归系数确定
5.2.1 梯度上升法
5.2.2 训练算法：使用梯度上升找到最佳参数
5.2.3 分析数据：画出决策边界
5.2.4 训练算法：随机梯度上升
5.3 示例：从疝气病症预测病马的死亡率
5.3.1 准备数据：处理数据中的缺失值
5.4 本章小结
第 6 章支持向量机
6.1 基于最大间隔分隔数据
6.2 寻找最大间隔
6.2.1 分类器求解的优化问题
6.2.2 SVM 应用的一般框架
6.3 SMO 高效优化算法
6.3.1 Platt 的 SMO 算法
6.3.2 应用简化版 SMO 算法处理小规模数据集
6.4 利用完整 Platt SMO 算法加速优化
6.5 在复杂数据上应用核函数
6.5.1 利用核函数将数据映射到高维空间
6.5.2 径向基核函数
6.5.3 在测试中使用核函数
6.6 示例：手写识别问题回顾
6.7 本章小结
第 7 章利用 AdaBoost 元算法提高分类性能
7.1 基于数据集多重抽样的分类器
7.1.1 bagging：基于数据随机重抽样的分类器构建方法
7.1.2 boosting
7.2 训练算法：基于错误提升分类器的性能
7.3 基于单层决策树构建弱分类器
7.4 完整 AdaBoost 算法的实现
7.5 测试算法：基于 AdaBoost 的分类
7.6 示例：在一个难数据集上应用 AdaBoost
7.7 非均衡分类问题
7.7.1 其他分类性能度量指标：正确率、召回率及 ROC 曲线
7.7.2 基于代价函数的分类器决策控制
7.7.3 处理非均衡问题的数据抽样方法
7.8 本章小结
第二部分利用回归预测数值型数据
第 8 章预测数值型数据：回归
8.1 用线性回归找到最佳拟合直线
8.2 局部加权线性回归
8.3 示例：预测鲍鱼的年龄
8.4 缩减系数来“理解”数据
8.4.1 岭回归
8.4.2 lasso
8.4.3 前向逐步回归
8.5 权衡偏差与方差
8.6 示例：预测乐高玩具套装的价格
8.6.1 收集数据：使用 Google 购物的 API
8.6.2 训练算法：建立模型
8.7 本章小结
第 9 章树回归
9.1 复杂数据的局部性建模
9.2 连续和离散型特征的树的构建
9.3 将 CART 算法用于回归
9.3.1 构建树
9.3.2 运行代码
9.4 树剪枝
9.4.1 预剪枝
9.4.2 后剪枝
9.5 模型树
9.6 示例：树回归与标准回归的比较
9.7 使用 Python 的 Tkinter 库创建 GUI
9.7.1 用 Tkinter 创建 GUI
9.7.2 集成 Matplotlib 和 Tkinter
9.8 本章小结
第三部分无监督学习
第 10 章利用 K-均值聚类算法对未标注数据分组
10.1 K-均值聚类算法
10.2 使用后处理来提高聚类性能
10.3 二分 K-均值算法
10.4 示例：对地图上的点进行聚类
10.4.1 Yahoo! PlaceFinder API
10.4.2 对地理坐标进行聚类
10.5 本章小结
第 11 章使用 Apriori 算法进行关联分析
11.1 关联分析
11.2 Apriori 原理
11.3 使用 Apriori 算法来发现频繁集
11.3.1 生成候选项集
11.3.2 组织完整的 Apriori 算法
11.4 从频繁项集中挖掘关联规则
11.5 示例：发现国会投票中的模式
11.5.1 收集数据：构建美国国会投票记录的事务数据集
11.5.2 测试算法：基于美国国会投票记录挖掘关联规则
11.6 示例：发现毒蘑菇的相似特征
11.7 本章小结
第 12 章使用 FP-growth 算法来高效发现频繁项集
12.1 FP 树：用于编码数据集的有效方式
12.2 构建 FP 树
12.2.1 创建 FP 树的数据结构
12.2.2 构建 FP 树
12.3 从一棵 FP 树中挖掘频繁项集
12.3.1 抽取条件模式基
12.3.2 创建条件 FP 树
12.4 示例：在 Twitter 源中发现一些共现词
12.5 示例：从新闻网站点击流中挖掘
12.6 本章小结
第四部分其他工具
第 13 章利用 PCA 来简化数据
13.1 降维技术
13.2 PCA
13.2.1 移动坐标轴
13.2.2 在 NumPy 中实现 PCA
13.3 示例：利用 PCA 对半导体制造数据降维
13.4 本章小结
第 14 章利用 SVD 简化数据
14.1 SVD 的应用
14.1.1 隐性语义索引
14.1.2 推荐系统
14.2 矩阵分解
14.3 利用 Python 实现 SVD
14.4 基于协同过滤的推荐引擎
14.4.1 相似度计算
14.4.2 基于物品的相似度还是基于用户的相似度？
14.4.3 推荐引擎的评价
14.5 示例：餐馆菜肴推荐引擎
14.5.1 推荐未尝过的菜肴
14.5.2 利用 SVD 提高推荐的效果
14.5.3 构建推荐引擎面临的挑战
14.6 基于 SVD 的图像压缩
14.7 本章小结
第 15 章大数据与 MapReduce
15.1 MapReduce：分布式计算的框架
15.2 Hadoop 流
15.2.1 分布式计算均值和方差的 mapper
15.2.2 分布式计算均值和方差的 reducer
15.3 在 Amazon 网络服务上运行 Hadoop 程序
15.3.1 AWS 上的可用服务
15.3.2 开启 Amazon 网络服务之旅
15.3.3 在 EMR 上运行 Hadoop 作业
15.4 MapReduce 上的机器学习
15.5 在 Python 中使用 mrjob 来自动化 MapReduce
15.5.1 mrjob 与 EMR 的无缝集成
15.5.2 mrjob 的一个 MapReduce 脚本剖析
15.6 示例：分布式 SVM 的 Pegasos 算法
15.6.1 Pegasos 算法
15.6.2 训练算法：用 mrjob 实现 MapReduce 版本的 SVM
15.7 你真的需要 MapReduce 吗？
15.8 本章小结
附录 A Python 入门
附录 B 线性代数
附录 C 概率论复习
附录 D 资源