第45单元 回顾概率分布
概率分布为每个可能的随机数(离散分布)或随机数的取值范围(连续分布)分配一个概率。换句话说,它告诉我们,与其他事件相比,某些事件是否更有可能出现。常见的概率分布包括均匀分布(连续和离散)、正态分布(连续)和二项分布(离散)。
可以通过概率质量函数(PMF,用于离散分布)或概率密度函数(PDF,用于连续分布)来指定概率分布。PDF描述了随机变量取得某个给定值的相对可能性,PMF给出了离散随机变量等于某个值的概率。下图给出了一些常见的概率分布的PDF(顶上一行)和PMF(底下一行)。(无疑,这些图是用pyplot绘制的,请参考第41单元)。
我们来简单看一下几种最有趣的概率分布类型。
均匀分布
均匀分布的所有结果具有相同的可能性。对于一个数值类型的随机变量来说,如果只有其取值范围是已知的,我们通常就使用均匀分布来表示该随机变量。
正态分布
正态分布也称为高斯分布或钟形曲线。如果一个实数随机变量的分布本身未知,但分布的平均值和标准差是已知的,就可以用正态分布来表示该随机变量。
二项分布
二项分布是n>0个独立二元试验(比如“投掷硬币”)序列中成功次数的概率分布,其中单次实验成功(掷出“头像”)的概率为0≤p≤1。成功次数的期望值为n×p。当n=1时,二项分布变为伯努利分布。
如果成功概率p为0.5,且独立重复试验次数为无限次,对应的二项分布随机变量实际上就是一个正态分布变量。换句话说,正态分布是无限次等概率二元试验的累积结果。
长尾
一些概率分布(例如帕累托分布,又称为Zipf分布或幂律分布)具有一条“长尾”,即分布的PDF无限向右或向左延伸,类似一个身体隆起并带有长尾的生物。长尾意味着远离均值的样本依然具有非零的概率,这样的样本可能会出现在数据中。
实际的原始数据可能恰好与某个理论分布相吻合,也有可能不存在任何适用于该数据的理论分布。但即便不存在吻合的分布,仍然可以通过计算各种统计度量来得出重要的结论,具体内容将在下一个单元介绍。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论