- 本书赞誉
- 前言
- 目标读者
- 不适合阅读本书的读者
- 本书结构
- 什么是数据处理
- 遇到困难怎么办
- 排版约定
- 使用代码示例
- 致谢
- 第 1 章 Python 简介
- 第 2 章 Python 基础
- 第 3 章 供机器读取的数据
- 第 4 章 处理 Excel 文件
- 第 5 章 处理 PDF 文件 以及用 Python 解决问题
- 第 6 章 数据获取与存储
- 第 7 章 数据清洗:研究、匹配与格式化
- 第 8 章 数据清洗:标准化和脚本化
- 第 9 章 数据探索和分析
- 第 10 章 展示数据
- 第 11 章 网页抓取:获取并存储网络数据
- 第 12 章 高级网页抓取:屏幕抓取器与爬虫
- 第 13 章 应用编程接口
- 第 14 章 自动化和规模化
- 第 15 章 结论
- 附录 A 编程语言对比
- 附录 B 初学者的 Python 学习资源
- 附录 C 学习命令行
- 附录 D 高级 Python 设置
- 附录 E Python 陷阱
- 附录 F IPython 指南
- 附录 G 使用亚马逊网络服务
- 关于作者
- 关于封面
14.10 小结
你已经学习了使用小规模和大规模解决方案来自动化大量的数据处理工作。你可以通过日志、监控和基于云的解决方案监控和跟踪脚本和任务以及子任务,这意味着你可以花费更少的时间跟踪这些事情,花费更多的时间在真正的报告上。你已经定义了自动化可能成功和失败的方式,并帮助创建了一套清晰的关于自动化的指南(理解所有的系统最后都会也必将失败)。你知道如何给其他的团队成员和同事权利,以后他们可以自己运行任务,同时你也学习了一些部署和设置 Python 自动化的知识。
表 14-3 总结了本章中的新概念和库。
表14-3:新的Python和编程概念和库
任务/库 | 目的 |
在远程运行脚本 | 在一台服务器或者其他的机器上运行代码,这样你就不必担心自己使用计算机时会受到干扰 |
命令行参数 | 在运行 Python 脚本时使用 argv 解析命令行参数 |
环境变量 | 使用环境变量参与实现脚本逻辑(例如运行在什么机器上,使用什么配置) |
使用 Cron | 在你的服务器或远程计算机上编写一个 shell 脚本来执行一个 cron 任务。是一种基本的自动化形式 |
配置文件 | 使用配置文件为脚本定义敏感或特殊的信息 |
Git 部署 | 使用 Git 轻松地部署代码到一台或更多的远程机器上 |
并行处理 | Python 的 multiprocessing 模块让你能在同一时间轻松地运行很多进程,同时有共享数据和锁机制 |
MapReduce | 有了分布式数据,你可以根据特定的属性映射数据,或者通过执行一系列的任务,之后规约数据,聚合分析 |
Hadoop 和 Spark | 两个在云计算中工具用来执行 MapReduce 操作的工具。Hadoop 更适合于已经定义和存储的数据集,而 Spark 更适合于你有流式、特别的大或动态生成的数据时 |
Celery(任务队列使用和管理) | 让你能够使用 Python 创建一个任务队列并管理它,允许你自动化没有清晰的开始和结束时间的任务 |
logging 模块 | 用于你的应用或脚本的内置日志模块,通过它你可以轻松地跟踪错误、调试信息和异常 |
smtp 和 email 模块 | 来自 Python 脚本的内置邮件警报 |
Twilio | 一个有着 Python API 客户端的服务,提供电话和文本信息业务 |
HypChat | 一个 Python API 库,可以使用 HipChat 聊天客户端构建聊天程序 |
日志服务 | 使用类似 Sentry 或 Logstash 的服务管理你的日志、错误率和异常 |
监控服务 | 使用类似 New Relic 或 Datadog 的服务监控日志、服务正常运行时间、数据库问题和性能(即发现硬件问题) |
学习了本书前面章节中的丰富知识,你现在应该已经准备好去花时间构建高质量的工具,并让这些工具为你做枯燥乏味的工作了。你可以丢掉那些老套的电子表格公式,使用 Python 导入数据,运行分析,直接交付报告到邮箱。你可以真正地让 Python 管理刻板的任务(就像机器人助手一样),自己投身于报告中更关键和有挑战的部分。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论