- 本书赞誉
- 前言
- 目标读者
- 不适合阅读本书的读者
- 本书结构
- 什么是数据处理
- 遇到困难怎么办
- 排版约定
- 使用代码示例
- 致谢
- 第 1 章 Python 简介
- 第 2 章 Python 基础
- 第 3 章 供机器读取的数据
- 第 4 章 处理 Excel 文件
- 第 5 章 处理 PDF 文件 以及用 Python 解决问题
- 第 6 章 数据获取与存储
- 第 7 章 数据清洗:研究、匹配与格式化
- 第 8 章 数据清洗:标准化和脚本化
- 第 9 章 数据探索和分析
- 第 10 章 展示数据
- 第 11 章 网页抓取:获取并存储网络数据
- 第 12 章 高级网页抓取:屏幕抓取器与爬虫
- 第 13 章 应用编程接口
- 第 14 章 自动化和规模化
- 第 15 章 结论
- 附录 A 编程语言对比
- 附录 B 初学者的 Python 学习资源
- 附录 C 学习命令行
- 附录 D 高级 Python 设置
- 附录 E Python 陷阱
- 附录 F IPython 指南
- 附录 G 使用亚马逊网络服务
- 关于作者
- 关于封面
本书赞誉
“所有新手数据科学家、数据工程师或其他技术方面的数据专家都应该读一读这本实践指南。数据处理领域正需要这样一本书,真希望我第一次开始用 Python 处理数据时就能有它指导。”
——Tyrone Grandison 博士,Proficiency Labs Intl. CEO
“数据处理不仅仅是编写代码,还包括更多内容,这本精心编写的书可以告诉你需要知道的一切内容。在新闻业需要更多数据专家的时代,这本书是循序渐进的宝贵资源。”
——Randy Picht,密苏里大学新闻学院 Donald W. Reynolds 新闻研究所执行理事
“很少有学习资源能够像这本书一样既全面又通俗易懂。它不仅介绍了你需要知道的内容,还阐释了其原因及学习方法。无论你是数据新闻业的新手,还是想要扩展自己的能力, Katharine 和 Jacqueline 的这本书都是必备的。”
——Joshua Hatch,《高等教育纪事报》与《慈善纪事报》数据与交互高级编辑
“这是一个很棒的概论课程,讲述了我们用数据讲故事时所做的一切,(真的是一切!)既包括了基础知识,也涵盖了最新技术。强烈推荐!”
——Brian Boyer,美国全国公共广播电台(NPR)可视化编辑
“这是一本实用的、通俗易懂的指南,你可以从中学习一些常见的不得不用代码完成的任务:查找、提取、整理和检查数据。”
——Chrys Wu,技术专家
“经常有记者问我:‘我很擅长使用电子表格,但下一步应该学些什么?’这本书给出了一个很有价值的答案。虽然这本书不仅仅面向新闻业的读者,但它给出了一条清晰的路径,对于任何使用电子表格并且想知道如何提高技能的人来说,都可以沿着这条路径来学习获取、清洗和分析数据的方法。它涵盖了所有内容,从如何加载并检查文本文件到自动化屏幕抓取,再到执行数据分析与结果可视化的新的命令行工具。
“我曾经使用陈旧的方式来分析数据并寻找其中的意义:首先使用电子表格,然后转向关系型数据库和绘图程序。它们仍然是很有用的工具,但都没有充分利用自动化功能,让用户能够处理更多数据并复制其工作。它们也不能与互联网上的各种数据无缝连接。在这些工具旁边还需要添加上一种编程语言。虽然我现在已经使用 Python 和其他语言一段时间了,但这种使用漫无计划,并不系统。
“无论是数据处理还是工具的复杂性,在过去 20 年中都在不断发展,这使得寻找一套常用技术更为重要。不断增长的可用数据(结构化的和非结构化的)以及可以用于存储和分析的数据量,都改变了数据分析的可能性:许多困难的问题现在变得更容易回答了,之前看起来不可能的一些问题也已能力可及。我们需要一种‘胶水’,可以将数据生态系统的各个组成部分,从 JSON API 到数据过滤与清洗,再到创建图表来讲故事,全部连接在一起。
“在这本书中,这种‘胶水’就是 Python 及其用于处理数据的强大的工具和库。如果你一直感觉电子表格(甚至关系型数据库)无法回答你想要提出的问题,或者除这些工具之外你已经准备进一步学习,那么这本书非常适合你。我一直在等待这本书的出现。”
——Derek Willis,ProPublica 新闻应用开发者,OpenElections 联合创始人
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论