- 本书赞誉
- 前言
- 目标读者
- 不适合阅读本书的读者
- 本书结构
- 什么是数据处理
- 遇到困难怎么办
- 排版约定
- 使用代码示例
- 致谢
- 第 1 章 Python 简介
- 第 2 章 Python 基础
- 第 3 章 供机器读取的数据
- 第 4 章 处理 Excel 文件
- 第 5 章 处理 PDF 文件 以及用 Python 解决问题
- 第 6 章 数据获取与存储
- 第 7 章 数据清洗:研究、匹配与格式化
- 第 8 章 数据清洗:标准化和脚本化
- 第 9 章 数据探索和分析
- 第 10 章 展示数据
- 第 11 章 网页抓取:获取并存储网络数据
- 第 12 章 高级网页抓取:屏幕抓取器与爬虫
- 第 13 章 应用编程接口
- 第 14 章 自动化和规模化
- 第 15 章 结论
- 附录 A 编程语言对比
- 附录 B 初学者的 Python 学习资源
- 附录 C 学习命令行
- 附录 D 高级 Python 设置
- 附录 E Python 陷阱
- 附录 F IPython 指南
- 附录 G 使用亚马逊网络服务
- 关于作者
- 关于封面
6.8 使用简单文件
如果你的数据集很小,很可能简单文件就可以满足要求,不必使用数据库。你可能想浏览一下第 7 章,在保存之前先用数据清洗技术处理一下,但把数据保存成 CSV 文件或其他简单文件格式是完全可以的。我们用来导入 CSV 的 csv 模块(见 3.1.1 节)也有许多好用的写入类(https://docs.python.org/2/library/csv.html#writer-objects)。
在使用简单文件时,你主要考虑的是确保访问和备份文件都比较方便。要满足这些需求,你可以将数据保存在共享网盘或云服务(Dropbox、Box、Amazon、Google Drive)中。这些服务通常都会提供备份选项和管理能力,同时还能够分享文件。在“哎呀,我把数据文件覆盖了”时,这是非常有用的。
6.8.1 云存储和Python
根据你选择的云存储方案,你应该研究一下用 Python 获取数据的最佳方法。Dropbox 对 Python 的支持很好,网站上的“Python 快速入门指南”(https://www.dropbox.com/developers-v1/core/start/python)很不错。Google Drive 要复杂一些,但“Python 快速上手指南”(https://github.com/googledrive/python-quickstart)可以帮你完成初步的设置。Google Drive 还有一些 Python API 包装器,比如 PyDrive(https://github.com/googledrive/PyDrive),可以让你在不太会用 Python 的情况下使用 Google Drive。要管理 Google Drive 上的电子表格,我们强烈推荐 GSpread(https://github.com/burnash/gspread)。
如果你有自己的云服务器,可能需要研究连接云服务器的最佳方法。Python 有内置的 URL 请求方法、FTP(文件传输协议)方法和 SSH/SCP(Secure Shell/Secure Copy)方法,都包含在 Python 标准库(stdlib)中。在第 14 章中我们还会讲到管理云服务的一些有用库。
6.8.2 本地存储和Python
数据存储最简单也是最直接的方法就是本地存储。用一行 Python 代码就可以打开文件系统中的文档(open 命令,https://docs.python.org/2/library/functions.html#open)。在处理数据时,你还可以用内置的 file.write 方法修改并保存为新文件。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论