返回介绍

第45单元 回顾概率分布

发布于 2024-01-28 22:01:16 字数 1242 浏览 0 评论 0 收藏 0

概率分布为每个可能的随机数(离散分布)或随机数的取值范围(连续分布)分配一个概率。换句话说,它告诉我们,与其他事件相比,某些事件是否更有可能出现。常见的概率分布包括均匀分布(连续和离散)、正态分布(连续)和二项分布(离散)。

可以通过概率质量函数(PMF,用于离散分布)或概率密度函数(PDF,用于连续分布)来指定概率分布。PDF描述了随机变量取得某个给定值的相对可能性,PMF给出了离散随机变量等于某个值的概率。下图给出了一些常见的概率分布的PDF(顶上一行)和PMF(底下一行)。(无疑,这些图是用pyplot绘制的,请参考第41单元)。

我们来简单看一下几种最有趣的概率分布类型。

均匀分布

均匀分布的所有结果具有相同的可能性。对于一个数值类型的随机变量来说,如果只有其取值范围是已知的,我们通常就使用均匀分布来表示该随机变量。

正态分布

正态分布也称为高斯分布或钟形曲线。如果一个实数随机变量的分布本身未知,但分布的平均值和标准差是已知的,就可以用正态分布来表示该随机变量。

二项分布

二项分布是n>0个独立二元试验(比如“投掷硬币”)序列中成功次数的概率分布,其中单次实验成功(掷出“头像”)的概率为0≤p≤1。成功次数的期望值为n×p。当n=1时,二项分布变为伯努利分布

如果成功概率p为0.5,且独立重复试验次数为无限次,对应的二项分布随机变量实际上就是一个正态分布变量。换句话说,正态分布是无限次等概率二元试验的累积结果。

 长尾

一些概率分布(例如帕累托分布,又称为Zipf分布或幂律分布)具有一条“长尾”,即分布的PDF无限向右或向左延伸,类似一个身体隆起并带有长尾的生物。长尾意味着远离均值的样本依然具有非零的概率,这样的样本可能会出现在数据中。

实际的原始数据可能恰好与某个理论分布相吻合,也有可能不存在任何适用于该数据的理论分布。但即便不存在吻合的分布,仍然可以通过计算各种统计度量来得出重要的结论,具体内容将在下一个单元介绍。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文