- 本书赞誉
- 前言
- 目标读者
- 不适合阅读本书的读者
- 本书结构
- 什么是数据处理
- 遇到困难怎么办
- 排版约定
- 使用代码示例
- 致谢
- 第 1 章 Python 简介
- 第 2 章 Python 基础
- 第 3 章 供机器读取的数据
- 第 4 章 处理 Excel 文件
- 第 5 章 处理 PDF 文件 以及用 Python 解决问题
- 第 6 章 数据获取与存储
- 第 7 章 数据清洗:研究、匹配与格式化
- 第 8 章 数据清洗:标准化和脚本化
- 第 9 章 数据探索和分析
- 第 10 章 展示数据
- 第 11 章 网页抓取:获取并存储网络数据
- 第 12 章 高级网页抓取:屏幕抓取器与爬虫
- 第 13 章 应用编程接口
- 第 14 章 自动化和规模化
- 第 15 章 结论
- 附录 A 编程语言对比
- 附录 B 初学者的 Python 学习资源
- 附录 C 学习命令行
- 附录 D 高级 Python 设置
- 附录 E Python 陷阱
- 附录 F IPython 指南
- 附录 G 使用亚马逊网络服务
- 关于作者
- 关于封面
3.4 小结
能够用 Python 处理机器可读的数据格式,这是数据处理的必备技能之一。本章讲了 CSV、 JSON 和 XML 三种文件类型。表 3-2 给出了在处理 WHO 数据的不同文件格式时所用到的 Python 库。
表3-2:文件类型和文件扩展名
文件类型 | 文件扩展名 | Python 库 |
CSV、TSV | .csv、.tsv | |
JSON | .json、.js |
我们还讲了一些新的 Python 概念。现在你应该知道如何在 Python 解释器中运行 Python 代码,以及如何将代码保存到新文件,并在命令行中运行。我们还学习了用 import 导入文件,以及用 Python 的 read 和 open 打开本地文件并读取。
我们讲的编程新概念还包括用 for 循环遍历文件、列表或树,还有用 if-else 语句判断特定条件是否满足,然后据此执行对应的命令。表 3-3 对本章学过的新函数和代码逻辑做了总结。
表3-3:Python编程的新概念
概念 | 作用 |
import(https://docs.python.org/2/reference/simple_stmts.html#import) | 向 Python 中导入模块 |
内置函数,用 Python 打开本地文件 | |
for 循环(http://anh.cs.luc.edu/python/hands-on/3.1/handsonHtml/loops.html#basic-for-loops) | 一段代码,运行 n 次 |
if-else 语句(http://anh.cs.luc.edu/python/hands-on/3.1/handsonHtml/ifstatements.html#simple-if-statements) | 如果满足特定条件,运行一段代码 |
==(等于运算符,https://docs.python.org/2/reference/expressions.html#not-in) | 检验两个值是否相等 |
取出序列(字符串、列表等)中第 n 个对象 |
最后,我们在本章创建并保存了许多代码文件和数据文件。假如你完成了本章的所有练习,应该有三个代码文件和三个数据文件。本章前面推荐过组织代码的方法。如果你还没有照做的话,现在马上去做。这是目前所有文件的组织结构示例:
data_wrangling/ code/ ch3_easy_data/ import_csv_data.py import_xml_data.py import_json_data.py data-text.csv data-text.xml data-json.json ch4_hard_data/ ...
接下来,我们要学习更复杂的数据格式!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论