- 本书赞誉
- 前言
- 目标读者
- 不适合阅读本书的读者
- 本书结构
- 什么是数据处理
- 遇到困难怎么办
- 排版约定
- 使用代码示例
- 致谢
- 第 1 章 Python 简介
- 第 2 章 Python 基础
- 第 3 章 供机器读取的数据
- 第 4 章 处理 Excel 文件
- 第 5 章 处理 PDF 文件 以及用 Python 解决问题
- 第 6 章 数据获取与存储
- 第 7 章 数据清洗:研究、匹配与格式化
- 第 8 章 数据清洗:标准化和脚本化
- 第 9 章 数据探索和分析
- 第 10 章 展示数据
- 第 11 章 网页抓取:获取并存储网络数据
- 第 12 章 高级网页抓取:屏幕抓取器与爬虫
- 第 13 章 应用编程接口
- 第 14 章 自动化和规模化
- 第 15 章 结论
- 附录 A 编程语言对比
- 附录 B 初学者的 Python 学习资源
- 附录 C 学习命令行
- 附录 D 高级 Python 设置
- 附录 E Python 陷阱
- 附录 F IPython 指南
- 附录 G 使用亚马逊网络服务
- 关于作者
- 关于封面
7.1 为什么要清洗数据
对于你获取的数据,有些可能格式良好,方便使用。如果真是这样的话,那你很幸运!大部分数据即使清洗过,也会有格式不一致和可读性的问题,例如首字母缩写或描述性标题不匹配,特别是数据来自多个数据集。除非你在数据格式化和标准化上花点工夫,否则数据不可能正确合并,也就没有用处了。
清洗数据可以让数据更容易存储、搜索和复用。我们在第 6 章中学过,先清洗数据,再把数据保存到适当的模型中会容易得多。想象一个数据集中有很多列(或字段),应该保存成特定的数据类型,比如日期、号码或电子邮件地址。如果你能将预期格式标准化,清洗或删除不合格的数据,就可以保证数据的一致性,在以后需要查询数据集时也不用做大量工作。
如果你想展示你的发现并发布数据,就要发布清洗过的版本。这样其他数据处理人员就能轻松导入并分析数据。你还可以在发布最终数据集的同时发布原始数据,并说明你是如何一步步清洗数据并将其归一化的。
在清洗数据的过程中,我们希望记下清洗过程的每一步,这样就可以在研究中为我们的数据集及其使用方法申辩,同时也可以方便我们自己以及其他人的后续使用。通过记录清洗过程,在遇到新的数据时我们可以重复整个过程。
如果你用 IPython 与数据交互,一个强大的工具是 IPython 的魔法命令,比如 %logstart(https://ipython.org/ipython-doc/dev/interactive/magics.html#magic-logstart)可用于记录日志,%save(https://ipython.org/ipython-doc/dev/interactive/magics.html#magic-save)可以保存当前会话供以后使用。这样你就可以在 Python 终端里创建脚本,而不仅仅是一行行的代码。随着对 Python 的进一步学习,你可以完善脚本并与其他人分享。想了解更多 IPython 的内容,可查阅附录 F。
下面我们开始学习数据清洗的基础知识,学习如何格式化数据,以及如何将多个数据集正确地匹配在一起。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论