- 本书赞誉
- 前言
- 目标读者
- 不适合阅读本书的读者
- 本书结构
- 什么是数据处理
- 遇到困难怎么办
- 排版约定
- 使用代码示例
- 致谢
- 第 1 章 Python 简介
- 第 2 章 Python 基础
- 第 3 章 供机器读取的数据
- 第 4 章 处理 Excel 文件
- 第 5 章 处理 PDF 文件 以及用 Python 解决问题
- 第 6 章 数据获取与存储
- 第 7 章 数据清洗:研究、匹配与格式化
- 第 8 章 数据清洗:标准化和脚本化
- 第 9 章 数据探索和分析
- 第 10 章 展示数据
- 第 11 章 网页抓取:获取并存储网络数据
- 第 12 章 高级网页抓取:屏幕抓取器与爬虫
- 第 13 章 应用编程接口
- 第 14 章 自动化和规模化
- 第 15 章 结论
- 附录 A 编程语言对比
- 附录 B 初学者的 Python 学习资源
- 附录 C 学习命令行
- 附录 D 高级 Python 设置
- 附录 E Python 陷阱
- 附录 F IPython 指南
- 附录 G 使用亚马逊网络服务
- 关于作者
- 关于封面
4.1 安装 Python 包
首先我们要学习如何安装 Python 外部包(或库)。目前为止,我们使用的 Python 库都是在安装 Python 时默认安装的。还记得在第 3 章里我们导入的 csv 和 json 包吗?它们属于标准库里的程序包,在安装 Python 时默认安装。
Python 默认安装了一些常用库。由于许多库并不常用,所以你需要手动指定安装。如果把 Python 所有的库都装到电脑里,占用的空间会很大。
Python 库有一个汇总在线目录,叫作 PyPI(https://pypi.python.org/pypi),里面保存了大量的 Python 包及其元数据和文档。
本章我们要处理的是 Excel 文件。在浏览器中访问 PyPI 网站,你可以搜索与 Excel 相关的库(搜索结果见 https://pypi.python.org/pypi?:action=search&term=excel&submit=search),搜索结果中有许多可以下载的 Python 包。这是搜索应该使用哪个 Python 包的一种方法。
从现在开始,我们将使用 pip 来安装 Python 包。安装 pip(安装方法见 https://pip.pypa.io/en/latest/installing/#install-pip)的方法有很多种,你在第 1 章里应该已经安装好了。
首先,要找出 Excel 中的数据值。我们通过安装外部包 xlrd(https://pypi.python.org/pypi/xlrd/0.9.3)来实现。我们用 pip 安装:
pip install xlrd
运行 uninstall 命令可以卸载这个 Python 包:
pip uninstall xlrd
试一下安装 xlrd,然后卸载,然后重新安装。掌握 pip 命令是很有用的,因为在本书中和你的数据处理生涯中都会经常用到这些命令。
有那么多可选的 Python 包,为什么选择 xlrd 呢?选择 Python 库的过程是不完善的。挑选的方法有许多种。不要试图去找到正确的库。在磨炼自身技能的过程中,你可能需要从几个库中选择,选择你能理解的那个库。
我们建议,首先要去网络上搜索,看看其他人推荐了哪些库。如果搜索“用 python 解析 excel”(https://www.google.com.sg/search?q=parse+excel+using+python&oq=parse+excel+using+python&gws_rd=cr&ei=Zu7gV-L_FYqEmgH_zKT4Cg),你会在发现搜索结果前几条里就有 xlrd 库。
但是答案并不总是这么明显。在第 13 章研究 Twitter 库时,我们将学习更多关于选择过程的内容。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论