当前位置：文江博客话题详情

具有最大内存效率的增量中值计算

发布于 2024-09-12 07:34:21 字数 171 浏览 6 评论 0原文

我有一个产生价值并且我观察的过程。当进程终止时，我想计算这些值的中值。

如果我必须计算平均值，我可以只存储总和以及生成值的数量，因此内存需求为 O(1)。中位数怎么样？有没有办法节省存储所有值带来的明显的 O(n) 时间？

编辑：对两种情况感兴趣：1）流长度已知，2）不知道。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

娇女薄笑 2024-09-19 07:34:21

您将需要存储至少 ceil(n/2) 个点，因为前 n/2 个点中的任何一个都可能是中位数。最简单的方法可能是存储点并找到中位数。如果保存 ceil(n/2) 点是有价值的，则将前 n/2 点读入排序列表（二叉树可能是最好的），然后在添加新点时丢弃低点或高点并保留跟踪两端抛出的点数。

编辑：

如果流长度未知，那么显然，正如斯蒂芬在评论中观察到的那样，我们别无选择，只能记住一切。如果可能有重复的项目，我们可以使用海豚存储值和计数的思想来节省一些内存。

回复收藏 0 原文

扮仙女 2024-09-19 07:34:21

我遇到了同样的问题，并得到了一种尚未发布在这里的方法。希望我的回答可以帮助将来的人。

如果您知道值范围并且不太关心中值精度，则可以使用常量内存逐步创建量化值的直方图。然后很容易找到中值或值的任何位置以及量化误差。

例如，假设您的数据流是图像像素值，并且您知道这些值都是 0~255 范围内的整数。要增量创建图像直方图，只需创建 256 个从 0 开始的计数器（箱），并在扫描输入时对与像素值对应的箱计数 1。创建直方图后，找到大于数据大小一半的第一个累积计数以获得中值。

对于实数数据，您仍然可以计算直方图，其中每个 bin 具有量化值（例如 10、1 或 0.1 等 bin），具体取决于您期望的数据值范围和所需的精度。

如果你不知道整个数据样本的取值范围，你仍然可以估计中位数可能的取值范围，并在这个范围内计算直方图。这本质上会丢弃异常值，但这正是我们在计算中位数时想要的。

回复收藏 0 原文

天冷不及心凉 2024-09-19 07:34:21

如果可以接受，您可以

使用统计数据 - 例如，您可以使用抽样。
利用有关您的号码流的知识
- 使用类似计数排序的方法：k 个不同的值意味着存储 O(k) 内存）
- 或者丢弃已知的异常值并保留（高、低）计数器。
- 如果您知道没有重复项，则可以使用位图...但这只是 O(n) 的一个较小常数。

回复收藏 0 原文

浮华 2024-09-19 07:34:21

如果您有离散值和大量重复，您可以存储值和计数，这将节省一些空间。

可能在计算的各个阶段，您可以丢弃顶部“n”和底部“n”值，只要您确定中位数不在顶部或底部范围内即可。
例如，假设您期望 100,000 个值。每当您存储的数字达到（例如）12,000 时，您就可以丢弃最高的 1000 个和最低的 1000 个，将存储量降回 10,000。

如果值的分布相当一致，那么这会很有效。但是，如果您有可能在临近结束时收到大量非常高或非常低的值，则可能会扭曲您的计算。基本上，如果您丢弃小于（最终）中值的“高”值或等于或大于（最终）中值的“低”值，那么您的计算就会失败。

更新
举个例子
假设数据集是数字 1,2,3,4,5,6,7,8,9。
通过检查，中位数是 5。

假设您得到的前 5 个数字是 1,3,5,7,9。
为了节省空间，我们丢弃最高和最低的值，留下 3,5,7
现在再加两个，2,6，所以我们的存储空间是 2,3,5,6,7
丢弃最高和最低，留下 3,5,6
获取最后两个 4,8，我们有 3,4,5,6,8
中位数仍然是 5，世界是个好地方。

但是，假设我们得到的前五个数字是 1,2,3,4,5
丢弃顶部和底部，留下 2,3,4
再加上两个 6,7，我们就有 2,3,4,6,7
丢弃顶部和底部，留下 3,4,6
获取最后两个 8,9，我们有 3,4,6,8,9
中位数为 6，这是不正确的。

如果我们的人数分布得好，我们就可以继续修剪四肢。如果它们可能聚集成很多大的或很多小的数量，那么丢弃是有风险的。

回复收藏 0 原文

~没有更多了~

关于作者

白龙吟

暂无简介

文章

614 人气

关注发私信

友情链接

文江博客

具有最大内存效率的增量中值计算

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

具有最大内存效率的增量中值计算

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。