利用 Python 进行数据分析 PDF 文档
针对科学计算领域的 Python 开源库生态系统在过去 10 年中得到了飞速发展。2011 年底,我深深地感觉到,由于缺乏集中的学习资源,刚刚接触数据分析和统计应用的 Python 程序员举步维艰。针对数据分析的关键项目(尤其是 NumPy、matplotlib 和 pandas)已经很成熟了,也就是说,写一本专门介绍它们的图书貌似不会很快过时。因此,我下定决心要开始这样的一个写作项目。我在 2007 年刚开始用Python 进行数据分析工作时就希望能够得到这样一本书。希望你也能觉得本书有用,同时也希望你能将书中介绍的那些工具高效地运用到实际工作中去。
本书讲的是利用 Python 进行数据控制、处理、整理、分析等方面的具体细节和基本要点。同时,它也是利用 Python 进行科学计算的实用指南(专门针对数据密集型应用)。本书重点介绍了用于高效解决各种数据分析问题的 Python 语言和库。本书没有阐述如何利用 Python 实现具体的分析方法。
第二版在线阅读: https://www.wenjiangs.com/doc/0q2eqts6
前言
第 1 章 准备工作
本书主要内容
为什么要使用 Python 进行数据分析
重要的 Python 库
安装和设置
社区和研讨会
使用本书
致谢
第 2 章 引言
来自 bit.ly 的 1.usa.gov 数据
MovieLens 1M 数据集
1880—2010 年间全美婴儿姓名
小结及展望
第 3 章 IPython:一种交互式计算和开发环境
IPython 基础
内省
使用命令历史
与操作系统交互
软件开发工具
IPython HTML Notebook
利用 IPython 提高代码开发效率的几点提示
高级 IPython 功能
致谢
第 4 章 NumPy 基础:数组和矢量计算
NumPy 的 ndarray:一种多维数组对象
通用函数:快速的元素级数组函数
利用数组进行数据处理
用于数组的文件输入输出
线性代数
随机数生成
范例:随机漫步
第 5 章 pandas 入门
pandas 的数据结构介绍
基本功能
汇总和计算描述统计
处理缺失数据
层次化索引
其他有关 pandas 的话题
第 6 章 数据加载、存储与文件格式
读写文本格式的数据
二进制数据格式
使用 HTML 和 Web API
使用数据库
第 7 章 数据规整化:清理、转换、合并、重塑
合并数据集
重塑和轴向旋转
数据转换
字符串操作
示例:USDA 食品数据库
第 8 章 绘图和可视化
matplotlib API 入门
pandas 中的绘图函数
绘制地图:图形化显示海地地震危机数据
Python 图形化工具生态系统
第 9 章 数据聚合与分组运算
GroupBy 技术
数据聚合
分组级运算和转换
透视表和交叉表
示例:2012 联邦选举委员会数据库
第 10 章 时间序列
日期和时间数据类型及工具
时间序列基础
日期的范围、频率以及移动
时区处理
时期及其算术运算
重采样及频率转换
时间序列绘图
移动窗口函数
性能和内存使用方面的注意事项
第 11 章 金融和经济数据应用
数据规整化方面的话题
分组变换和分析
更多示例应用
第 12 章 NumPy 高级应用
ndarray 对象的内部机理
高级数组操作
广播
ufunc 高级应用
结构化和记录式数组
更多有关排序的话题
NumPy 的 matrix 类
高级数组输入输出
性能建议
附录 A Python 语言精要
下载地址:https://www.wenjiangs.com/wp-content/uploads/2024/05/2sHatLUf2Gb6lUhm.zip
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论