“大”是多少？数据集？

发布于 2024-07-21 07:03:15 字数 147 浏览 8 评论 0原文

假设无限存储，其中大小/体积/物理（指标、千兆字节/太字节）仅与元素及其标签的数量无关，统计模式应该已经在 30 个子集中出现，但是您是否同意少于 1000 个子集太少了为了测试，至少 10000 个不同的子集/“元素”、“条目”/实体是“一个大数据集”。或者更大？谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

何以畏孤独 2024-07-28 07:03:15

我不确定我是否理解你的问题，但听起来你试图询问需要采样多少数据集元素才能确保一定程度的准确性（30 是中心极限定理中的一个神奇数字经常进来玩）。

如果是这种情况，您需要的样本量取决于置信水平和置信区间。如果您想要 95% 的置信水平和 5% 的置信区间（即您想要 95% 的置信度确保从样本中确定的比例在完整数据集中的比例的 5% 以内），那么您最终需要样本量不超过 385 个元素。您想要生成的置信水平越高，置信区间越小，您需要的样本量就越大。

这是关于确定样本大小的数学的精彩讨论
如果您只想计算数字，还有一个方便的样本量计算器。

回复收藏 0 原文

~没有更多了~