返回介绍

第46单元 回顾统计度量

发布于 2024-01-28 22:01:16 字数 2705 浏览 0 评论 0 收藏 0

从探索性(非基于推理的)数据科学的角度来看,统计学回答了四个重要问题。

数据位于何处?

样本均值是所有观察值的平均值:

当数据接近正态分布(也即“钟形”分布)且标准差较小时,可以使用样本均值来表示整个样本。

数据分布有多广?

样本标准差是数据分散程度的度量,其计算方式为数据与样本均值的均方差的平方根:

Sx越大,数据分布得越广。

数据分布的偏斜程度有多大?

样本偏斜度是概率分布不对称性的度量。零偏斜度意味着分布是对称的。对于单峰分布(具有一种模式的分布)来说,负的偏斜度表示概率密度函数左侧的尾部长于右侧。

两个变量是否相关?

样本协方差是衡量两个随机变量(的变化)接近程度的度量。X与自身的协方差称为方差,记为s2(标准差的平方)。

皮尔逊(Pearson)相关系数,又称为相关系数或相关,是协方差的归一化:

相关性的取值范围是[-1…1],请参考下表。相关性的取值较大意味着变量是相关的,取值较低意味着变量是反相关的。零相关意味着变量不是线性相关的。

表6 两个变量之间的线性关系的类型

r≪0

r=0

r≫0

p≤0.01

强反相关

不线性相关

强相关

p>0.01

不线性相关

强相关性并不意味着变量存在因果关系。两个变量呈高度相关或反相关,其可能的原因是它们都由相同因素导致(混杂变量),但也可能只是巧合。例如,当白天变长黑夜变短,就会出现更多溺水身亡的人,但是溺水的原因并不是白天变长,而是因为夏天的到来既使得白天变长,也同时促使游泳的人增多!

类似地,两个变量不线性相关并不意味着二者就没有关系:它们之间可能是非线性的关系。当没有观察到明显的线性相关性时,不要失望。应该再分析一下其他的关系模型,比如第50单元中提到的聚类。

 人口和样本

虽然你可能对统计推断(从样本数据中推测出人口可能具有的特征的艺术)不感兴趣,但仍需要明白,大多数时间数据科学家处理的并不是整个观测人群,而是量比较小的样本。本单元列出的所有统计度量都不是真值——它们是样本估计值

当样本的观测次数较少时,两个变量之间的相关性可能很大,但相关性不一定显著。显著性的度量被称为p。p的值越小越好,不过p≤0.01就可以认为是足够好了。

现在我们可以转到Python了。我们将学习如何从分布中得出样本,并以Python的方式计算各种统计度量。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文