- 本书赞誉
- 前言
- 目标读者
- 不适合阅读本书的读者
- 本书结构
- 什么是数据处理
- 遇到困难怎么办
- 排版约定
- 使用代码示例
- 致谢
- 第 1 章 Python 简介
- 第 2 章 Python 基础
- 第 3 章 供机器读取的数据
- 第 4 章 处理 Excel 文件
- 第 5 章 处理 PDF 文件 以及用 Python 解决问题
- 第 6 章 数据获取与存储
- 第 7 章 数据清洗:研究、匹配与格式化
- 第 8 章 数据清洗:标准化和脚本化
- 第 9 章 数据探索和分析
- 第 10 章 展示数据
- 第 11 章 网页抓取:获取并存储网络数据
- 第 12 章 高级网页抓取:屏幕抓取器与爬虫
- 第 13 章 应用编程接口
- 第 14 章 自动化和规模化
- 第 15 章 结论
- 附录 A 编程语言对比
- 附录 B 初学者的 Python 学习资源
- 附录 C 学习命令行
- 附录 D 高级 Python 设置
- 附录 E Python 陷阱
- 附录 F IPython 指南
- 附录 G 使用亚马逊网络服务
- 关于作者
- 关于封面
6.6 数据存储
找到数据之后,你需要把数据保存下来!有些时候,你得到的数据是干净的、易于访问的、机器可读的格式。其他时候,你可能想用另一种方法来保存数据。当你第一次从 CSV 或 PDF 中提取数据的时候,我们会讲到几种数据存储工具,或者,你可以等数据完全处理并清洗完成后再进行存储(我们会在第 7 章讲到数据清洗的内容)。
我应该把数据保存在哪里?
最开始的问题是,要将数据保存到其他地方,还是留在最开始提取的文件中。这有一系列问题可以帮你回答这个问题。
· 你能否用简单的文档阅读器(例如 Microsoft Word)打开数据集,同时不会造成计算机死机?
· 数据看起来是否具有良好的标签和结构,让你可以方便提取出每一段信息?
· 如果需要不止一台电脑来处理数据的话,数据的保存和移动是否方便?
· 能否利用 API 实时访问数据,这样你就能在线获取需要的数据?
如果所有问题的回答都是“是”,你可能不必担心保存数据的问题。如果你的回答有“是”有“否”的话,可能需要将数据保存在数据库或平面文件(flat file)中。如果所有问题的回答都是“否”,继续读下去,我的朋友,我们为你提供了解决方法!
假设你的数据集各不相同——这里的一个文件,那里的一份报告。其中一些很容易下载和访问,但其他的你可能需要从网络上复制或抓取。第 7 章和第 9 章中会讲到如何清洗与合并数据集,但现在我们来谈一谈如何将数据保存在共享位置。
如果你要用的数据集来自多台电脑,建议你把它们都保存在网络或互联网中(你好,云计算!),或者保存在移动硬盘或 U 盘中。当你和团队合作时,团队成员可能会从不同地点或不同电脑访问数据,一定要记住这一点。如果你在一台计算机上工作,一定要有数据备份策略。电脑丢失最糟糕的一点就是,你花几个月时间获取并清洗的数据也丢失了。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论