第46单元 回顾统计度量
从探索性(非基于推理的)数据科学的角度来看,统计学回答了四个重要问题。
数据位于何处?
样本均值是所有观察值的平均值:
当数据接近正态分布(也即“钟形”分布)且标准差较小时,可以使用样本均值来表示整个样本。
数据分布有多广?
样本标准差是数据分散程度的度量,其计算方式为数据与样本均值的均方差的平方根:
Sx越大,数据分布得越广。
数据分布的偏斜程度有多大?
样本偏斜度是概率分布不对称性的度量。零偏斜度意味着分布是对称的。对于单峰分布(具有一种模式的分布)来说,负的偏斜度表示概率密度函数左侧的尾部长于右侧。
两个变量是否相关?
样本协方差是衡量两个随机变量(的变化)接近程度的度量。X与自身的协方差称为方差,记为s2(标准差的平方)。
皮尔逊(Pearson)相关系数,又称为相关系数或相关,是协方差的归一化:
相关性的取值范围是[-1…1],请参考下表。相关性的取值较大意味着变量是相关的,取值较低意味着变量是反相关的。零相关意味着变量不是线性相关的。
表6 两个变量之间的线性关系的类型
r≪0 | r=0 | r≫0 | |
p≤0.01 | 强反相关 | 不线性相关 | 强相关 |
p>0.01 | 不线性相关 |
强相关性并不意味着变量存在因果关系。两个变量呈高度相关或反相关,其可能的原因是它们都由相同因素导致(混杂变量),但也可能只是巧合。例如,当白天变长黑夜变短,就会出现更多溺水身亡的人,但是溺水的原因并不是白天变长,而是因为夏天的到来既使得白天变长,也同时促使游泳的人增多!
类似地,两个变量不线性相关并不意味着二者就没有关系:它们之间可能是非线性的关系。当没有观察到明显的线性相关性时,不要失望。应该再分析一下其他的关系模型,比如第50单元中提到的聚类。
人口和样本
虽然你可能对统计推断(从样本数据中推测出人口可能具有的特征的艺术)不感兴趣,但仍需要明白,大多数时间数据科学家处理的并不是整个观测人群,而是量比较小的样本。本单元列出的所有统计度量都不是真值——它们是样本估计值。
当样本的观测次数较少时,两个变量之间的相关性可能很大,但相关性不一定显著。显著性的度量被称为p值。p的值越小越好,不过p≤0.01就可以认为是足够好了。
现在我们可以转到Python了。我们将学习如何从分布中得出样本,并以Python的方式计算各种统计度量。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论