文江博客开发文档 Python 数据科学入门文章详情

文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

第45单元回顾概率分布

发布于 2024-01-28 22:01:16 字数 1242 浏览 0 评论 0 收藏 0

概率分布为每个可能的随机数（离散分布）或随机数的取值范围（连续分布）分配一个概率。换句话说，它告诉我们，与其他事件相比，某些事件是否更有可能出现。常见的概率分布包括均匀分布（连续和离散）、正态分布（连续）和二项分布（离散）。

可以通过概率质量函数（PMF，用于离散分布）或概率密度函数（PDF，用于连续分布）来指定概率分布。PDF描述了随机变量取得某个给定值的相对可能性，PMF给出了离散随机变量等于某个值的概率。下图给出了一些常见的概率分布的PDF（顶上一行）和PMF（底下一行）。（无疑，这些图是用pyplot绘制的，请参考第41单元）。

我们来简单看一下几种最有趣的概率分布类型。

均匀分布

均匀分布的所有结果具有相同的可能性。对于一个数值类型的随机变量来说，如果只有其取值范围是已知的，我们通常就使用均匀分布来表示该随机变量。

正态分布

正态分布也称为高斯分布或钟形曲线。如果一个实数随机变量的分布本身未知，但分布的平均值和标准差是已知的，就可以用正态分布来表示该随机变量。

二项分布

二项分布是n＞0个独立二元试验（比如“投掷硬币”）序列中成功次数的概率分布，其中单次实验成功（掷出“头像”）的概率为0≤p≤1。成功次数的期望值为n×p。当n＝1时，二项分布变为伯努利分布。

如果成功概率p为0.5，且独立重复试验次数为无限次，对应的二项分布随机变量实际上就是一个正态分布变量。换句话说，正态分布是无限次等概率二元试验的累积结果。

　长尾

一些概率分布（例如帕累托分布，又称为Zipf分布或幂律分布）具有一条“长尾”，即分布的PDF无限向右或向左延伸，类似一个身体隆起并带有长尾的生物。长尾意味着远离均值的样本依然具有非零的概率，这样的样本可能会出现在数据中。

实际的原始数据可能恰好与某个理论分布相吻合，也有可能不存在任何适用于该数据的理论分布。但即便不存在吻合的分布，仍然可以通过计算各种统计度量来得出重要的结论，具体内容将在下一个单元介绍。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文