求助,有放回抽样问题
有放回的对观测量为N的数据集A抽N次,为什么最后抽出来的样本数据集B的样本量是A的63%?1-(1-N)^N只是说明每个观测进入数据集B的概率为63%吧,有点想不通了。
自问自答,引述别人的答案:
“
首先,A集合中每个元素设为a(1), a(2), ..., a(i), ..., a(N),任一a(i)没有被抽中进入B集合的概率是:(1-1/N)^N,当N足够大时,此概率就趋近于exp(-1)=0.367879..., 也是说任一a(i)被抽中进入B的概率=1-0.367879=63.2121% (就是你所说的“只是说明每个观测进入数据集B的概率为63%”,但是,不只是这个结论,继续往下看)
第二,构造一组独立同分布(贝努利分布)的随机变量x(1), ...x(i),..., x(N)。而每个x(i)的定义是:若a(i)被抽中进入B集合,则x(i)=1;否则x(i)=0。由于a(i)被抽中进入B的概率是63.2121%,即,每个x(i)~Bernoulli(63.2121%)。
再构造一随机变量S,令S=x(1)+x(2)+...+x(N),不难发现,S正好就是B集合中包含多少个A中元素的数量(因为被抽中进入B集合的A中元素,不管被抽中多少次,在S中仅计入一个1,没被抽中进入B集合的A中元素,在S中计入一个0,那么S正好就是B集合中包含多少个A中元素的数量)。由于S是N个独立同分布的贝努利分布变量之和,就是符合了二项分布,即 S~Binomial(N, 63.2121%)。所以,S的期望(即B集合中包含多少个A中元素的数量的平均值)=N×63.2121%
”
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
你不是说得很清楚了吗。。。自问自答不如写个专栏啦