返回介绍

9.3 小结

发布于 2024-01-27 21:43:11 字数 1798 浏览 0 评论 0 收藏 0

在这一章,我们使用了一些新的 Python 库和技术,探索和分析了我们的数据集。你已经能够导入数据、联结数据、分组数据,并且基于发现创造新的数据集。

现在你可以使用统计学方法来找到离群值,衡量数据之间的相关性。你可以通过分离有趣的分组,并且深入数据探索之中,确定清晰的、可回答的问题来研究。如果你曾经使用过 IPython 和 %store 来保存变量,在下一章,我们会用这个命令做更多的交互。

现在你应该能够:

· 使用 agate 库评估你的数据;

· 确定哪些事,如果有的话,在数据中是至关重要的;

· 找到数据中的入手点或一部分的数据来做深入研究,得到结论;

· 通过分析和探索数据挑战你的假设。

本章中涉及的新概念和库总结在表 9-2 中。

表9-2:新的Python编程概念和库

概念/库

功能

agate 库

使数据分析变得简单,能够从 CSV 数据中读取数据,创建供分析的表,运行基本的数据分析函数,在数据集上应用过滤器,洞察数据

xlrd ctype 和 ctype_text 对象

当使用 xlrd 分析 Excel 数据时,让你能够轻松地看到数据的类型

isintance 函数

检验 Python 对象的类型。如何类型匹配,结果返回一个布尔值

lambda 函数

Python 中的单行函数,对数据集的简单过滤或解析非常有用。注意不要书写不易阅读和理解的 lambda 函数。如果函数很复杂,尝试用一个小函数来代替 lambda 函数

联结(内联结,外联结,左联结,右联结)

允许你通过一个或多个匹配的域联结两个不同的数据集。根据联结数据方式的不同(内 / 外和左 / 右),你会得到不同的数据集。花一些时间思考什么类型的联结更符合你的需求

异常处理

使你能够使用代码预见和处理 Python 异常。明确和清楚的异常捕获永远是更好的,这样你不会捕获过度泛化的异常而漏掉 bug

numpy coerrcoef

使用统计学方法,例如皮尔森相关系数,来确定数据集中的两部分是否有联系

agate mad_outliers 和 stdev_outliers

使用统计学模型和工具,例如标准差或平均偏差,来确定数据集是否有特殊的离群值或不合适的值

agate group_by 和 aggregate

根据特定的属性对数据集分组,通过运行聚合分析,查看在分组间是否有明显的不同之处(或相似之处)

在下一章中,你会学习如何使用可视化和讲故事的工具来在 Web 和其他媒介上分享结论。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文