当前位置：文江博客话题详情

如何在不保存整个数组且空间恒定的情况下计算排序数组的精确中位数？

发布于 2024-12-09 13:24:11 字数 116 浏览 11 评论 0原文

我需要从 awk/gawk 的输入读取排序数组并获取中值。我不想存储整个数组，并试图获得用于计算的恒定空间。

你知道有什么算法可以做到这一点吗？假设数组已排序，但其大小未知。

先感谢您！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

叶落知秋 2024-12-16 13:24:11

没有算法可以准确找到使用固定内存量运行的未知长度的排序序列的中值。

要看到这一点，请考虑这样一个算法。假设它有一个长度为 N 的缓冲区，用于保存序列中的项目。在该缓冲区填满之前，算法只是将项目放入其中，并在此过程中跟踪中值。

当算法扫描第 N+1 个及以上的项目时，它必须在每一步选择一个要丢弃的项目。假设它已经扫描了 2N 个项目，并丢弃了其中的一半。让我们姑且相信它，并假设它尚未丢弃输入流的中值。

考虑一下它何时扫描第 2N+1 个项目。应该掉落哪件物品？它不能删除迄今为止保留的最小元素，因为输入可能在该项目之后耗尽，在这种情况下，最低的元素可能是中位数。同样，对于任何可能删除的元素，输入序列都有一个未来，使这个删除的元素成为中位数。

如果您愿意获取近似结果，那么此估计器可能适合您。

回复收藏 0 原文

家住魔仙堡 2024-12-16 13:24:11

进行两次传递，第一次仅用于计算数组的大小，如有必要，请将数据存储在文件中。否则，如果不存储数组就无法做到这一点，因为如果在读取 n 个项目后获取程序的状态，那么通过向其提供足够大的数字，您可以检索最后 n/2 个项目中的任何一个作为中位数，所以事实上，程序必须至少记住这些项目。

回复收藏 0 原文

一身骄傲 2024-12-16 13:24:11

基本上你要求的是一个“算法”来找到数组的大小N，因为中位数将是元素数量(N+1)/2（现在忽略偶数/奇数细节）。

我想不出不涉及两次传递的算法。根据定义，您需要第一遍才能算出 N。

在扫描元素 i+1 时，您可以保留之前的 i/2 元素的缓冲区。当到达数组末尾时，中位数将只是缓冲区中的第一个值，即只需要一次传递。这样做的问题是，您必须为缓冲区分配足够的内存来包含 N/2 元素 - 但您不知道 N 是什么，所以您不知道缓冲区应该有多大！此外，如果 N 值太大而无法存储，正如您在问题中所述，那么大概 N/2 值也太大而无法存储（否则我的建议是：只需将您的 RAM 加倍即可）。

所以这种缓冲方法不是一个选择。就两关了。一种计算N，一种获取元素(N+1)/2。