返回介绍

7.1 为什么要清洗数据

发布于 2024-01-27 21:43:11 字数 1317 浏览 0 评论 0 收藏 0

对于你获取的数据,有些可能格式良好,方便使用。如果真是这样的话,那你很幸运!大部分数据即使清洗过,也会有格式不一致和可读性的问题,例如首字母缩写或描述性标题不匹配,特别是数据来自多个数据集。除非你在数据格式化和标准化上花点工夫,否则数据不可能正确合并,也就没有用处了。

 清洗数据可以让数据更容易存储、搜索和复用。我们在第 6 章中学过,先清洗数据,再把数据保存到适当的模型中会容易得多。想象一个数据集中有很多列(或字段),应该保存成特定的数据类型,比如日期、号码或电子邮件地址。如果你能将预期格式标准化,清洗或删除不合格的数据,就可以保证数据的一致性,在以后需要查询数据集时也不用做大量工作。

如果你想展示你的发现并发布数据,就要发布清洗过的版本。这样其他数据处理人员就能轻松导入并分析数据。你还可以在发布最终数据集的同时发布原始数据,并说明你是如何一步步清洗数据并将其归一化的。

在清洗数据的过程中,我们希望记下清洗过程的每一步,这样就可以在研究中为我们的数据集及其使用方法申辩,同时也可以方便我们自己以及其他人的后续使用。通过记录清洗过程,在遇到新的数据时我们可以重复整个过程。

 如果你用 IPython 与数据交互,一个强大的工具是 IPython 的魔法命令,比如 %logstart(https://ipython.org/ipython-doc/dev/interactive/magics.html#magic-logstart)可用于记录日志,%save(https://ipython.org/ipython-doc/dev/interactive/magics.html#magic-save)可以保存当前会话供以后使用。这样你就可以在 Python 终端里创建脚本,而不仅仅是一行行的代码。随着对 Python 的进一步学习,你可以完善脚本并与其他人分享。想了解更多 IPython 的内容,可查阅附录 F。

下面我们开始学习数据清洗的基础知识,学习如何格式化数据,以及如何将多个数据集正确地匹配在一起。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文