内容来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

Python 数据处理 PDF 文档

发布于 2024-04-28 15:01:46 字数 5980 浏览 19 评论 0

本书采用基于项目的方法，介绍用 Python 完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括：Python 基础知识，如何从 CSV、Excel、XML、JSON 和 PDF 文件中提取数据，如何获取与存储数据，各种数据清洗与分析技术，数据可视化方法，如何从网站和 API 中提取数据。

本书适合数据处理工作相关人员。

前言
第 1 章 Python 简介
1.1 为什么选择 Python
1.2 开始使用 Python
1.2.1 Python 版本选择
1.2.2 安装 Python
1.2.3 测试 Python
1.2.4 安装 pip
1.2.5 安装代码编辑器
1.2.6 安装 IPython（可选）
1.3 小结
第 2 章 Python 基础
2.1 基本数据类型
2.1.1 字符串
2.1.2 整数和浮点数
2.2 数据容器
2.2.1 变量
2.2.2 列表
2.2.3 字典
2.3 各种数据类型的用途
2.3.1 字符串方法：字符串能做什么
2.3.2 数值方法：数字能做什么
2.3.3 列表方法：列表能做什么
2.3.4 字典方法：字典能做什么
2.4 有用的工具：type、dir 和 help
2.4.1 type
2.4.2 dir
2.4.3 help
2.5 综合运用
2.6 代码的含义
2.7 小结
第 3 章供机器读取的数据
3.1 CSV 数据
3.1.1 如何导入 CSV 数据
3.1.2 将代码保存到文件中并在命令行中运行
3.2 JSON 数据
如何导入 JSON 数据
3.3 XML 数据
如何导入 XML 数据
3.4 小结
第 4 章处理 Excel 文件
4.1 安装 Python 包
4.2 解析 Excel 文件
4.3 开始解析
4.4 小结
第 5 章处理 PDF 文件
5.1 尽量不要用 PDF
5.2 解析 PDF 的编程方法
5.2.1 利用 slate 库打开并读取 PDF
5.2.2 将 PDF 转换成文本
5.3 利用 pdfminer 解析 PDF
5.4 学习解决问题的方法
5.4.1 练习：使用表格提取，换用另一个库
5.4.2 练习：手动清洗数据
5.4.3 练习：试用另一种工具
5.5 不常见的文件类型
5.6 小结
第 6 章数据获取与存储
6.1 并非所有数据生而平等
6.2 真实性核查
6.3 数据可读性、数据清洁度和数据寿命
6.4 寻找数据
6.4.1 打电话
6.4.2 美国政府数据
6.4.3 全球政府和城市开放数据
6.4.4 组织数据和非政府组织数据
6.4.5 教育数据和大学数据
6.4.6 医学数据和科学数据
6.4.7 众包数据和 API
6.5 案例研究：数据调查实例
6.5.1 埃博拉病毒危机
6.5.2 列车安全
6.5.3 足球运动员的薪水
6.5.4 童工
6.6 数据存储
6.7 数据库简介
6.7.1 关系型数据库：MySQL 和 PostgreSQL
6.7.2 非关系型数据库：NoSQL
6.7.3 用 Python 创建本地数据库
6.8 使用简单文件
6.8.1 云存储和 Python
6.8.2 本地存储和 Python
6.9 其他数据存储方式
6.10 小结
第 7 章数据清洗：研究、匹配与格式化
7.1 为什么要清洗数据
7.2 数据清洗基础知识
7.2.1 找出需要清洗的数据
7.2.2 数据格式化
7.2.3 找出离群值和不良数据
7.2.4 找出重复值
7.2.5 模糊匹配
7.2.6 正则表达式匹配
7.2.7 如何处理重复记录
7.3 小结
第 8 章数据清洗：标准化和脚本化
8.1 数据归一化和标准化
8.2 数据存储
8.3 找到适合项目的数据清洗方法
8.4 数据清洗脚本化
8.5 用新数据测试
8.6 小结
第 9 章数据探索和分析
9.1 探索数据
9.1.1 导入数据
9.1.2 探索表函数
9.1.3 联结多个数据集
9.1.4 识别相关性
9.1.5 找出离群值
9.1.6 创建分组
9.1.7 深入探索
9.2 分析数据
9.2.1 分离和聚焦数据
9.2.2 你的数据在讲什么
9.2.3 描述结论
9.2.4 将结论写成文档
9.3 小结
第 10 章展示数据
10.1 避免讲故事陷阱
10.1.1 怎样讲故事
10.1.2 了解听众
10.2 可视化数据
10.2.1 图表
10.2.2 时间相关数据
10.2.3 地图
10.2.4 交互式元素
10.2.5 文字
10.2.6 图片、视频和插画
10.3 展示工具
10.4 发布数据
10.4.1 使用可用站点
10.4.2 开源平台：创建一个新网站
10.4.3 Jupyter（曾名 IPython notebook）
10.5 小结
第 11 章网页抓取：获取并存储网络数据
11.1 抓取什么和如何抓取
11.2 分析网页
11.2.1 检视：标记结构
11.2.2 网络/时间线：页面是如何加载的
11.2.3 控制台：同 JavaScript 交互
11.2.4 页面的深入分析
11.3 得到页面：如何通过互联网发出请求
11.4 使用 Beautiful Soup 读取网页
11.5 使用 lxml 读取网页
一个 XPath 案例
11.6 小结
第 12 章高级网页抓取：屏幕抓取器与爬虫
12.1 基于浏览器的解析
12.1.1 使用 Selenium 进行屏幕读取
12.1.2 使用 Ghost.py 进行屏幕读取
12.2 爬取网页
12.2.1 使用 Scrapy 创建一个爬虫
12.2.2 使用 Scrapy 爬取整个网站
12.3 网络：互联网的工作原理，以及为什么它会让脚本崩溃
12.4 变化的互联网（或脚本为什么崩溃）
12.5 几句忠告
12.6 小结
第 13 章应用编程接口
13.1 API 特性
13.1.1 REST API 与流式 API
13.1.2 频率限制
13.1.3 分级数据卷
13.1.4 API key 和 token
13.2 一次简单的 Twitter REST API 数据拉取
13.3 使用 Twitter REST API 进行高级数据收集
13.4 使用 Twitter 流式 API 进行高级数据收集
13.5 小结
第 14 章自动化和规模化
14.1 为什么要自动化
14.2 自动化步骤
14.3 什么会出错
14.4 在哪里自动化
14.5 自动化的特殊工具
14.5.1 使用本地文件、参数及配置文件
14.5.2 在数据处理中使用云
14.5.3 使用并行处理
14.5.4 使用分布式处理
14.6 简单的自动化
14.6.1 CronJobs
14.6.2 Web 接口
14.6.3 Jupyter notebook
14.7 大规模自动化
14.7.1 Celery：基于队列的自动化
14.7.2 Ansible：操作自动化
14.8 监控自动化程序
14.8.1 Python 日志
14.8.2 添加自动化信息
14.8.3 上传和其他报告
14.8.4 日志和监控服务
14.9 没有万无一失的系统
14.10 小结
第 15 章结论
15.1 数据处理者的职责
15.2 数据处理之上
15.2.1 成为一名更优秀的数据分析师
15.2.2 成为一名更优秀的开发者
15.2.3 成为一名更优秀的视觉化讲故事者
15.2.4 成为一名更优秀的系统架构师
15.3 下一步做什么
附录 A 编程语言对比
A.1 C、C++、Java 与 Python
A.2 R 或 MATLAB 与 Python
A.3 HTML 与 Python
A.4 JavaScript 与 Python
A.5 Node.js 与 Python
A.6 Ruby 和 Ruby on Rails 与 Python
附录 B 初学者的 Python 学习资源
B.1 在线资源
B.2 线下小组
附录 C 学习命令行
C.1 bash
C.1.1 跳转命令
C.1.2 修改文件
C.1.3 运行文件
C.1.4 利用命令行进行搜索
C.1.5 更多资源
C.2 Windows cmd/PowerShell
C.2.1 跳转命令
C.2.2 修改文件
C.2.3 运行文件
C.2.4 利用命令行进行搜索
C.2.5 更多资源
附录 D 高级 Python 设置
D.1 第 1 步：安装 GCC
D.2 第 2 步：（只在 Mac 上）安装 Homebrew
D.3 第 3 步：（Mac 系统）告诉系统去哪里寻找 Homebrew
D.4 第 4 步：安装 Python 2.7
D.5 第 5 步：安装 virtualenv（Windows、Mac、Linux）
D.6 第 6 步：创建一个新目录
D.7 第 7 步：安装 virtualenvwrapper
D.7.1 安装 virtualenvwrapper（Mac 和 Linux）
D.7.2 安装 virtualenvwrapper-win（Windows）
D.7.3 测试你的虚拟环境（Windows、Mac、Linux）
D.8 学习我们的新环境（Windows、Mac、Linux）
D.9 高级设置回顾
附录 E Python 陷阱
E.1 空白
E.2 可怕的 GIL
E.3 =、==与 is，以及何时只是复制
E.4 默认函数参数
E.5 Python 作用域与内置函数：变量名称的重要性
E.6 定义对象与修改对象
E.7 修改不可变对象
E.8 类型检查
E.9 捕获多个异常
E.10 调试的力量
附录 F IPython 指南
F.1 为什么使用 IPython
F.2 IPython 起步
F.3 魔法函数
F.4 最后的思考：一个简单的终端
附录 G 使用亚马逊网络服务
G.1 启动 AWS 服务器
G.1.1 AWS 步骤 1：选择一个亚马逊机器镜像（AMI）
G.1.2 AWS 步骤 2：选择一个实例类型
G.1.3 AWS 步骤 7：学习实例启动
G.1.4 AWS 额外问题：选择一个存在的键对或创建一个新的
G.2 登录 AWS 服务器
G.2.1 得到实例的公共 DNS 名称
G.2.2 准备你的私钥
G.2.3 登录你的服务器
G.3 小结