高效的经验CDF计算/存储

发布于 2024-10-04 01:46:53 字数 306 浏览 0 评论 0原文

我正在尝试预先计算几个随机变量的分布。特别是，这些随机变量是在基因组中的位置评估函数的结果，因此每个变量的值约为 10^8 或 10^9。这些功能非常流畅，所以我认为仅在每 2/10/100 次评估时不会损失太多准确性？基数左右，但不管怎样都会有大量的样本。我的计划是为每个函数预先计算分位数表（可能是百分位数），并在主程序的执行中引用这些表，以避免在每次运行中计算这些分布统计数据。

但我真的不明白如何轻松做到这一点：存储、排序和减少 10^9 浮点数的数组实际上并不可行，但我想不出另一种不会丢失有关分配。有没有一种方法可以测量样本分布的分位数，而不需要将整个数据存储在内存中？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

坏尐絯 2024-10-11 01:46:53

我同意@katriealex 的评论：询问具有强大统计背景的人。

您可以轻松评估最小/最大/平均值/标准偏差，无需存储任何大量内存。（平均值+标准差的注意事项：使用 Knuth 的技术：

delta = x - m[n-1]
m[n] = m[n-1] +  1/n * delta
S[n] = S[n-1] + (x[n] - m[n])*delta
mean = m[n]
std dev = sqrt(S[n]/n)

这可以防止您在标准偏差的简单计算中遇到浮点上溢/下溢问题，例如取 S1 = x[k] 之和，S2 = x[k]^2 之和，并尝试计算标准偏差 = sqrt(S2/N - S1^ 2/N^2)。另请参阅维基百科。）

可能有其他面向流的算法用于计算分布的更高特征矩，但我不知道它们是什么。

或者，您也可以使用直方图技术和足够的箱来表征分布。

I agree with @katriealex's comment: ask someone w/ a strong statistics background.

You could easily evaluate min/max/mean/std deviation w/o needing to store any significant amount of memory. (note for mean + std deviation: use Knuth's technique:

delta = x - m[n-1]
m[n] = m[n-1] +  1/n * delta
S[n] = S[n-1] + (x[n] - m[n])*delta
mean = m[n]
std dev = sqrt(S[n]/n)

This prevents you from floating point overflow/underflow problems encountered in the naive calculation of std dev, e.g. taking S1 = the sum of x[k] and S2 = the sum of x[k]^2 and trying to calculate std deviation = sqrt(S2/N - S1^2/N^2). See also Wikipedia.)

There are probably other stream-oriented algorithms for computing higher characteristic moments of the distribution, but I don't know what they are.

Or alternatively, you could also use histogramming techniques with enough bins to characterize the distribution.

回复收藏 0 原文

~没有更多了~

关于作者

无尽的现实

暂无简介

0 文章

0 评论

22 人气

关注发私信

友情链接

文江博客

高效的经验CDF计算/存储

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

lioqio

Single

禾厶谷欠

alipaysp_2zg8elfGgC

qq_N6d4X7

放低过去

友情链接

高效的经验CDF计算/存储

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

lioqio

Single

禾厶谷欠

alipaysp_2zg8elfGgC

qq_N6d4X7

放低过去

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。