返回介绍

第 9 章 从这里启航

发布于 2024-01-27 22:10:03 字数 999 浏览 0 评论 0 收藏 0

这是本书的最后一章,到目前为止,书中已经介绍了很多知识和技术,包括 Python 基础知识以及分析任意数量的文本文件、CSV 文件、Excel 文件和数据库中数据的方法。我们已经掌握了如何从这些数据源中选择特定的行与列,如何聚合数据并计算基本统计量,以及如何将结果写入输出文件。我们完成了 3 个常见的商业分析应用,这些应用要求我们创造性地且有效率地使用学过的知识和技术。我们还学习了如何通过一些扩展模块创建最常用的统计图表,以及如何通过 StatsModels 包来估计回归模型和分类模型。最后,我们学习了如何按计划自动定期运行脚本,这样便可以节省出时间来进行其他更重要的分析工作。如果你一直跟随着本书中的示例进行学习和实践,那么能否体会到,你正经历着从门外汉到编程高手的转变?

到目前为止,你可能会非常想知道下一步应该做些什么。也就是说,在掌握了使用 Python 规模化和自动化地完成数据分析任务之后,还应该学习些什么?本章将会介绍标准 Python 发布版本中一些其他的功能,在你刚开始学习 Python 时,这些功能不是必要的,但它们确实是非常有趣而且实用的。在学习了本书前面的章节之后,希望你会发现,这些功能更容易理解,而且能更方便地扩展前面已经学习过的技术。

本章还会讨论一下 NumPy、SciPy 和 Scikit-Learn 扩展包,因为它们分别提供了基础的数据容器和向量运算、可以用于科学计算和统计分析的数学分布和检验,以及统计建模方法和机器学习功能,pandas 包依赖于这些功能,StatsModels 包则在这些功能的基础上进行了扩展。例如,Scikit-Learn 提供了数据预处理,数据降维,回归、分类与聚集模型估计,模型比较与选择,交叉验证等强大的功能。这些方法可以帮助你创建、检验和选择模型,这样得出的模型对新数据是具有鲁棒性的,使用这种模型和新数据更有可能做出准确的预测。

最后,本章还要再介绍几种数据结构,它们有助于你更加熟练地使用 Python。本书重点介绍的数据结构包括列表、元组和字典,因为它们是功能强大的基础数据容器,完全可以满足初级编程的需要(其实,对于你现在的水平,只学习这 3 种数据结构也足够了)。但是,还有一些其他数据结构,像栈、队列、堆、树、图,等等,它们对一些特殊的要求更加适用。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文