求助,有放回抽样问题

发布于 2022-09-02 01:05:21 字数 734 浏览 9 评论 0

有放回的对观测量为N的数据集A抽N次,为什么最后抽出来的样本数据集B的样本量是A的63%?1-(1-N)^N只是说明每个观测进入数据集B的概率为63%吧,有点想不通了。

自问自答,引述别人的答案:

首先,A集合中每个元素设为a(1), a(2), ..., a(i), ..., a(N),任一a(i)没有被抽中进入B集合的概率是:(1-1/N)^N,当N足够大时,此概率就趋近于exp(-1)=0.367879..., 也是说任一a(i)被抽中进入B的概率=1-0.367879=63.2121% (就是你所说的“只是说明每个观测进入数据集B的概率为63%”,但是,不只是这个结论,继续往下看)

第二,构造一组独立同分布(贝努利分布)的随机变量x(1), ...x(i),..., x(N)。而每个x(i)的定义是:若a(i)被抽中进入B集合,则x(i)=1;否则x(i)=0。由于a(i)被抽中进入B的概率是63.2121%,即,每个x(i)~Bernoulli(63.2121%)。

再构造一随机变量S,令S=x(1)+x(2)+...+x(N),不难发现,S正好就是B集合中包含多少个A中元素的数量(因为被抽中进入B集合的A中元素,不管被抽中多少次,在S中仅计入一个1,没被抽中进入B集合的A中元素,在S中计入一个0,那么S正好就是B集合中包含多少个A中元素的数量)。由于S是N个独立同分布的贝努利分布变量之和,就是符合了二项分布,即 S~Binomial(N, 63.2121%)。所以,S的期望(即B集合中包含多少个A中元素的数量的平均值)=N×63.2121%

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

酒废 2022-09-09 01:05:21

你不是说得很清楚了吗。。。自问自答不如写个专栏啦

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文