当前位置：文江博客话题详情

确定两个误差值之间的差异是否显着

发布于 2024-08-19 21:28:59 字数 305 浏览 8 评论 0原文

我正在评估许多不同的算法，其作用是预测事件发生的概率。

我正在大型数据集上测试算法。我使用“均方根误差”来衡量它们的有效性，它是（（误差之和）平方）的平方根。误差是预测概率（0 到 1 之间的浮点值）与实际结果（0.0 或 1.0）之间的差异。

所以我知道 RMSE，以及测试算法的样本数量。

问题是，有时 RMSE 值彼此非常接近，我需要一种方法来确定它们之间的差异是否只是偶然，或者是否代表性能的实际差异。

理想情况下，对于给定的一对 RMSE 值，我想知道一个确实比另一个更好的概率是多少，以便我可以使用该概率作为显着性阈值。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

国产ˉ祖宗 2024-08-26 21:28:59

MSE 是平均值，因此适用中心极限定理。因此，测试两个 MSE 是否相同与测试两个均值是否相等是一样的。与比较两种均值的标准测试相比，一个困难在于您的样本是相关的——两者都来自相同的事件。但 MSE 的差异与差分平方误差的平均值相同（平均值是线性的）。这建议将单样本 t 检验计算为如下所示：

对于每个x，计算过程1和2的误差e。
计算平方误差的差(e2^2-e1^2) 。
计算差异的平均值。
计算差异的标准差。
将 t 统计量计算为 mean/(sd/sqrt(n))。
将 t 统计量与临界值进行比较或计算 p 值。例如，如果 |t|>1.96，则拒绝 5% 置信度下的相等。

RMSE 是 MSE 的单调变换，因此该测试不应给出实质性不同的结果。但请注意不要假设 MRSE 就是 RMSE。

更大的问题应该是过度拟合。确保使用未用于估计模型的数据来计算所有 MSE 统计数据。

回复收藏 0 原文

遇见了你 2024-08-26 21:28:59

你正在进入一个广阔而有争议的领域，不仅涉及计算，还涉及哲学。显着性检验和模型选择是贝叶斯主义者和频率主义者之间存在严重分歧的主题。特里斯顿关于将数据集分为训练集和验证集的评论不会让贝叶斯主义者满意。

我可以建议 RMSE 不是一个合适的概率分数。如果样本是独立的，则正确的分数是分配给实际结果的概率的对数之和。（如果它们不是独立的，那么你的手上就会一片混乱。）我所描述的是对“插件”模型进行评分。正确的贝叶斯建模需要对模型参数进行积分，这在计算上极其困难。调节插件模型的贝叶斯方法是对不太可能的（大）模型参数的分数添加惩罚。这就是所谓的“重量衰减”。

我开始阅读 Christopher Bishop 的《用于模式识别的神经网络》，开始我的探索之旅。我使用它以及 Gill 等人的实用优化来编写对我来说非常有效的软件。

回复收藏 0 原文

一抹淡然 2024-08-26 21:28:59

我在这里回应评论中的问题。这个主题太大了，无法在评论中处理。

悬崖笔记版本。

我们谈论的分数类型衡量的是概率。（这是否适合您正在做的事情是另一个问题。）如果您假设样本是独立的，则只需将所有概率相乘即可获得“总”概率。但这通常会导致数字小得离谱，因此等效地，您将概率的对数相加。越大越好。零是完美的。

普遍存在的平方误差 -x^2（其中 x 是模型误差）来自（通常不合理的）假设：训练数据包含被“高斯噪声”破坏的观测值（测量值）。如果您查看维基百科或高斯（又名正态）分布的定义，您会发现它包含术语 e^(-x^2)。取其自然对数，瞧！-x^2。但是您的模型不会产生最有可能的“噪声前”测量值。它们直接产生概率。因此，要做的就是简单地将分配给观察到的事件的概率的对数相加。假设这些观察结果是无噪声的。如果训练数据表明它发生了，它就发生了。

你原来的问题仍然没有答案。如何判断两个模型是否“显着”不同？这是一个模糊且困难的问题。这是很多争论的主题，甚至是情感和怨恨的主题。这也不是您真正想要回答的问题。你想知道的是哪种模式可以给你带来最好的预期利润，考虑到所有因素，包括每个软件包的成本等等。

我很快就会结束这个问题。这不是建模和概率课程的地方，而且我也没有真正的资格作为教授。

回复收藏 0 原文

~没有更多了~