中位数的中位数 - 这可能吗还是有不同的方法

发布于 2025-01-08 01:41:16 字数 1304 浏览 0 评论 0原文

目前，我每天都会汇总大量数据，并且每天都会计算当前值的中值。现在我需要将所有这些每日结果汇总到每月的基础上，当然我需要再次计算中位数。

有没有办法计算中位数并使其在统计上正确？我想避免再次使用原始数据，因为它的数量很大:)

作为一个小的概念证明，我制作了这个 javascript - 也许它有助于找到一种方法：

var aSortedNumberGroups = [];
var aSortedNumbers = [];
var aMedians = [];

Math.median = function(aData)
{
    var fMedian = 0;
    var iIndex = Math.floor(aData.length/2);
    if (!(aData.length%2)) {
        fMedian = (aData[iIndex-1]+aData[iIndex])/2;
    } else {
        fMedian = aData[iIndex];
    }

    return fMedian;
};

for (var iCurrGroupNum = 0; iCurrGroupNum < 5; ++iCurrGroupNum) {
    var aCurrNums = [];
    for (var iCurrNum = 0; iCurrNum < 1000; ++iCurrNum) {
        var iCurrRandomNumber = Math.floor(Math.random()*10001);
        aCurrNums.push(iCurrRandomNumber);
        aSortedNumbers.push(iCurrRandomNumber);
    }
    aCurrNums.sort(function(oCountA,oCountB) {
        return (iNumA < iNumB) ? -1 : 1;
    });
    aSortedNumberGroups.push(aCurrNums);
    aMedians.push(Math.median(aCurrNums));
}

console.log("Medians of each group: "+JSON.stringify(aMedians, null, 4));
console.log("Median of medians: "+Math.median(aMedians));
console.log("Median of all: "+Math.median(aSortedNumbers));

正如你将看到的，通常有一个巨大的上限在所有原始数字的中位数和中位数的中位数之间，我喜欢让它彼此非常接近。

多谢！

原文

Currently i am aggregating big amount of data on a daily basis and for each day i am calculating a median of the current values. Now i need to aggregate all this daily results into a monthly basis and of course i need to calculate the median again.

Is there a way to calculate a median of medians and have it statistically correct? I want to avoid to use the raw data again, because it is a huge amount of it :)

As a small proof of concept i made this javascript - maybe it helps to find a way:

var aSortedNumberGroups = [];
var aSortedNumbers = [];
var aMedians = [];

Math.median = function(aData)
{
    var fMedian = 0;
    var iIndex = Math.floor(aData.length/2);
    if (!(aData.length%2)) {
        fMedian = (aData[iIndex-1]+aData[iIndex])/2;
    } else {
        fMedian = aData[iIndex];
    }

    return fMedian;
};

for (var iCurrGroupNum = 0; iCurrGroupNum < 5; ++iCurrGroupNum) {
    var aCurrNums = [];
    for (var iCurrNum = 0; iCurrNum < 1000; ++iCurrNum) {
        var iCurrRandomNumber = Math.floor(Math.random()*10001);
        aCurrNums.push(iCurrRandomNumber);
        aSortedNumbers.push(iCurrRandomNumber);
    }
    aCurrNums.sort(function(oCountA,oCountB) {
        return (iNumA < iNumB) ? -1 : 1;
    });
    aSortedNumberGroups.push(aCurrNums);
    aMedians.push(Math.median(aCurrNums));
}

console.log("Medians of each group: "+JSON.stringify(aMedians, null, 4));
console.log("Median of medians: "+Math.median(aMedians));
console.log("Median of all: "+Math.median(aSortedNumbers));

As you will see there is often a huge cap between the median of all raw numbers and the median of medians and i like to have it pretty close to each other.

Thanks alot!

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

呆头 2025-01-15 01:41:16

您实际上并没有“计算”中位数，而是通过重新分配到子集中“发现”它，唯一的优化是可重新加载的“刻度图”或运行计数：例如，以这种方式存储每个出现的次数及其发生的次数可以重新创建分布，而无需实际重新解析原始数据。这只是一个小的优化，但根据相关数据集的重复情况，您可以节省大量的 MB 数据，并且至少节省大量处理器周期。

用 JSON 来思考：{ '1': 3, '5': 12, '7': 4 } 规范：'1' 出现了 3 次，'5' 出现了 12 次，等等...

然后将这些计数保留在您想要获取中位数的时间段开始时的开始位置。

希望这有帮助-ck

回复收藏 0 原文