- 本书赞誉
- 前言
- 目标读者
- 不适合阅读本书的读者
- 本书结构
- 什么是数据处理
- 遇到困难怎么办
- 排版约定
- 使用代码示例
- 致谢
- 第 1 章 Python 简介
- 第 2 章 Python 基础
- 第 3 章 供机器读取的数据
- 第 4 章 处理 Excel 文件
- 第 5 章 处理 PDF 文件 以及用 Python 解决问题
- 第 6 章 数据获取与存储
- 第 7 章 数据清洗:研究、匹配与格式化
- 第 8 章 数据清洗:标准化和脚本化
- 第 9 章 数据探索和分析
- 第 10 章 展示数据
- 第 11 章 网页抓取:获取并存储网络数据
- 第 12 章 高级网页抓取:屏幕抓取器与爬虫
- 第 13 章 应用编程接口
- 第 14 章 自动化和规模化
- 第 15 章 结论
- 附录 A 编程语言对比
- 附录 B 初学者的 Python 学习资源
- 附录 C 学习命令行
- 附录 D 高级 Python 设置
- 附录 E Python 陷阱
- 附录 F IPython 指南
- 附录 G 使用亚马逊网络服务
- 关于作者
- 关于封面
15.2 数据处理之上
本书的课程提高了你的技能,但是你还有很多要学习的东西。根据你的技术栈和兴趣,有许多领域值得进一步探索。
15.2.1 成为一名更优秀的数据分析师
本书介绍了统计和数据分析。如果你想要真正地夯实统计和分析技能,需要花更多的时间阅读方法背后的科学知识,同样还要学习一些更专业的 Python 包,这样你在分析数据集时会有更多的能力和灵活性。
为了学习更高级的统计学知识,回归模型和数据分析背后的数学知识是必须学习的。如果你没有上过任何统计学课程,Edx 有一个很棒的来自加州大学伯克利分校的存档课程(https://courses.edx.org/courses/BerkeleyX/Stat_2.1x/1T2014/info)。如果你想通过读书来探索,Allen Downey 的《统计思维:程序员数学之概率统计(第 2 版)》1 很好地介绍了统计数学概念并且使用了 Python。Cathy O'Neill 和 Rachel Schutt 的《数据科学实战》2 提供了数据科学领域的深入分析。
1此书已由人民邮电出版社出版。——编者注
2此书已由人民邮电出版社出版。——编者注
如果你想学习 scipy 技术栈和更多关于 Python 如何帮助你进行高级数学和统计分析的知识,你很幸运。pandas 的一个主要贡献者 Wes McKinney 编写了《利用 Python 进行数据分析》,深度讲解了 pandas。pandas 的文档(http://pandas.pydata.org/pandas-docs/stable/10min.html)也是很好的入门方法。在第 7 章中,你学习了一些关于 numpy 的知识。如果你对学习 numpy 一些核心的知识感兴趣,查看 SciPy 关于基础的介绍(https://docs.scipy.org/doc/numpy/user/basics.html)。
15.2.2 成为一名更优秀的开发者
如果你想要增强 Python 技能,Luciano Ramalho 的《流畅的 Python》3 深入讨论了 Python 中的一些设计模式。我们也强烈建议你浏览世界各地最新的 Python 活动的视频(http://pyvideo.org/),并研究你感兴趣的主题。
3此书已由人民邮电出版社出版。——编者注
如果本书是你的第一本编程入门书,你可能想要参加一个计算机科学的入门课程。如果你想要自学,Coursera 提供了斯坦福大学的一个课程(https://www.coursera.org/course/cs101)。如果你想要一本介绍计算机科学背后的理论知识的在线教科书,我们推荐 Structure and Interpretation of Computer Programs(https://mitpress.mit.edu/sicp/full-text/book/book.html),由 Harold Abelson 和 Gerald Jay Sussman 编写(MIT 出版社)。
如果你想通过与其他人一起构建和工作来学习更多的开发原则,我们建议你找一个本地讨论组并参与进去。许多类似的小组会举办本地或远程的极客开发活动,所以你可以同他人一起编写代码,通过实践来学习。
15.2.3 成为一名更优秀的视觉化讲故事者
如果你对本书中视觉化讲故事的部分特别感兴趣,有很多拓展该领域知识的方式。如果你想继续研究我们使用过的库,我们强烈建议你学习 Bokeh 的入门教程(http://bokeh.pydata.org/en/latest/docs/user_guide/tutorials.html),同时利用你的 Jupyter notebooks 做实验。
学习 JavaScript 和 JavaScript 社区中流行的一些可视化库,会帮助你成为一名更好的用视觉讲故事者。Square 提供了一个关于 D3 课程的介绍(https://square.github.io/intro-to-d3/),对流行的 JavaScript 库 D3(https://d3js.org/)做了简短说明。
最后,如果你想从数据分析的角度学习视觉化讲故事背后的一些理论和想法,我们推荐 Edward Tufte 的 Visual Display of Quantitative Information(https://www.amazon.com/Visual-Display-Quantitative-Information/dp/0961392142/,Graphics 出版社)。
15.2.4 成为一名更优秀的系统架构师
如果你想学习如何规模化、部署和管理系统,我们几乎没有触及系统表层。
如果你想学习更多的 Unix 知识,萨里大学有一个简短的教程,介绍了一些优秀的概念(http://www.ee.surrey.ac.uk/Teaching/Unix/index.html)。Linux 文档项目同样有一个简短的关于 bash 编程的介绍(http://tldp.org/HOWTO/Bash-Prog-Intro-HOWTO.html)。
我们强烈建议你花时间学习 Ansible(http://docs.ansible.com/ansible/intro_getting_started.html),一个可扩展的、灵活的服务器和系统管理解决方案。如果你对规模化数据解决方案感兴趣,Udacity 提供了一个对 Hadoop 和 MapReduce 课程的介绍(https://cn.udacity.com/course/intro-to-hadoop-and-mapreduce--ud617)。你同样应该查看斯坦福大学关于 Apache Spark 的介绍(http://stanford.edu/~rezab/sparkclass/slides/itas_workshop.pdf),还有 PySpark 编程指南(https://spark.apache.org/docs/0.9.0/python-programming-guide.html)。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论