- 本书赞誉
- 前言
- 目标读者
- 不适合阅读本书的读者
- 本书结构
- 什么是数据处理
- 遇到困难怎么办
- 排版约定
- 使用代码示例
- 致谢
- 第 1 章 Python 简介
- 第 2 章 Python 基础
- 第 3 章 供机器读取的数据
- 第 4 章 处理 Excel 文件
- 第 5 章 处理 PDF 文件 以及用 Python 解决问题
- 第 6 章 数据获取与存储
- 第 7 章 数据清洗:研究、匹配与格式化
- 第 8 章 数据清洗:标准化和脚本化
- 第 9 章 数据探索和分析
- 第 10 章 展示数据
- 第 11 章 网页抓取:获取并存储网络数据
- 第 12 章 高级网页抓取:屏幕抓取器与爬虫
- 第 13 章 应用编程接口
- 第 14 章 自动化和规模化
- 第 15 章 结论
- 附录 A 编程语言对比
- 附录 B 初学者的 Python 学习资源
- 附录 C 学习命令行
- 附录 D 高级 Python 设置
- 附录 E Python 陷阱
- 附录 F IPython 指南
- 附录 G 使用亚马逊网络服务
- 关于作者
- 关于封面
9.3 小结
在这一章,我们使用了一些新的 Python 库和技术,探索和分析了我们的数据集。你已经能够导入数据、联结数据、分组数据,并且基于发现创造新的数据集。
现在你可以使用统计学方法来找到离群值,衡量数据之间的相关性。你可以通过分离有趣的分组,并且深入数据探索之中,确定清晰的、可回答的问题来研究。如果你曾经使用过 IPython 和 %store 来保存变量,在下一章,我们会用这个命令做更多的交互。
现在你应该能够:
· 使用 agate 库评估你的数据;
· 确定哪些事,如果有的话,在数据中是至关重要的;
· 找到数据中的入手点或一部分的数据来做深入研究,得到结论;
· 通过分析和探索数据挑战你的假设。
本章中涉及的新概念和库总结在表 9-2 中。
表9-2:新的Python编程概念和库
概念/库 | 功能 |
agate 库 | 使数据分析变得简单,能够从 CSV 数据中读取数据,创建供分析的表,运行基本的数据分析函数,在数据集上应用过滤器,洞察数据 |
xlrd ctype 和 ctype_text 对象 | 当使用 xlrd 分析 Excel 数据时,让你能够轻松地看到数据的类型 |
isintance 函数 | 检验 Python 对象的类型。如何类型匹配,结果返回一个布尔值 |
lambda 函数 | Python 中的单行函数,对数据集的简单过滤或解析非常有用。注意不要书写不易阅读和理解的 lambda 函数。如果函数很复杂,尝试用一个小函数来代替 lambda 函数 |
联结(内联结,外联结,左联结,右联结) | 允许你通过一个或多个匹配的域联结两个不同的数据集。根据联结数据方式的不同(内 / 外和左 / 右),你会得到不同的数据集。花一些时间思考什么类型的联结更符合你的需求 |
异常处理 | 使你能够使用代码预见和处理 Python 异常。明确和清楚的异常捕获永远是更好的,这样你不会捕获过度泛化的异常而漏掉 bug |
numpy coerrcoef | 使用统计学方法,例如皮尔森相关系数,来确定数据集中的两部分是否有联系 |
agate mad_outliers 和 stdev_outliers | 使用统计学模型和工具,例如标准差或平均偏差,来确定数据集是否有特殊的离群值或不合适的值 |
agate group_by 和 aggregate | 根据特定的属性对数据集分组,通过运行聚合分析,查看在分组间是否有明显的不同之处(或相似之处) |
在下一章中,你会学习如何使用可视化和讲故事的工具来在 Web 和其他媒介上分享结论。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论