选择分割数据集的范围

发布于 2024-09-18 03:29:39 字数 171 浏览 7 评论 0原文

我有几百万个 0 到 64K 之间的整数。我想将它们分成 N 个桶，其中每个桶包含来自连续范围的大约相同数量的项目。例如，如果我只有一个包含每个可能值的数据点和 64 个存储桶，那么理想情况下我最终会得到 0-1024 的存储桶、1025-2048 的存储桶等。

计算存储桶的算法是什么项目数量分布最均匀的范围？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

心清如水 2024-09-25 03:29:41

如果您专注于均匀分布，最简单的方法可能是对列表进行排序，然后将第一个 (list_length / N) 项放入第一个存储桶中，然后将下一个 ( list_length / N) 项放入下一个存储桶中，等等。由于您有一个相当大的列表需要排序，这可能不是最有效的解决方案。

回复收藏 0 原文

向日葵 2024-09-25 03:29:41

一种可能性是，在浏览排序列表时对数字进行排序并填充包含所需数量元素的桶。

您可以使用堆执行类似的操作，但可能更快：您填充堆上您的元素，然后您可以非常快速地提取最小的 list_length/N 元素。

然而，如果速度不是太重要的话，对 100 万个数字进行排序既简单又快速（在使用 Numpy 的 Python 中只需几分之一秒）。

回复收藏 0 原文

~没有更多了~

关于作者

半寸时光

暂无简介

文章

28 人气

关注发私信

友情链接

文江博客

选择分割数据集的范围

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

达拉崩吧

PANGOO

kkgtx

WordPress小学生

酷炫老祖宗

硪扪都還晓

友情链接

选择分割数据集的范围

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

达拉崩吧

PANGOO

kkgtx

WordPress小学生

酷炫老祖宗

硪扪都還晓

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。