纠正收集数据中的已知偏差

发布于 2024-07-17 00:07:38 字数 744 浏览 5 评论 0原文

好的，所以这是一个与我的问题类似的问题（我将在下面详细说明真正的问题，但我认为这个类比会更容易理解）。

我有一枚奇怪的双面硬币，每抛 1,001 次，只会（随机）出现 1 次正面（其余均为反面）。换句话说，我每看到 1000 个尾巴，就会有 1 个正面。

我有一种特殊的疾病，我看到的每 1,000 个反面中只有 1 个，但我注意到每个正面，所以在我看来，注意到正面或反面的比率是 0.5。当然，我知道这种疾病及其影响，所以我可以弥补它。

现在有人给了我一枚新硬币，我注意到正面朝上的几率现在是 0.6。鉴于我的疾病没有改变（我仍然只注意到每 1,000 个反面中就有 1 个），我如何计算这枚新硬币产生的正面与反面的实际比例？

好吧，那么真正的问题是什么？好吧，我有一堆数据，由输入和输出（1 和 0）组成。我想教一种监督机器学习算法来预测给定输入的预期输出（0 到 1 之间的浮点数）。问题是 1 非常罕见，这会搞乱内部数学，因为它非常容易受到舍入误差的影响 - 即使使用高精度浮点数学也是如此。

因此，我通过随机省略大部分 0 个训练样本来对数据进行归一化，这样看起来 1 和 0 的比例大致相等。当然，这意味着现在机器学习算法的输出不再预测概率，即。它现在预测的是 0.5，而不是应有的预测 0.001。

我需要一种方法将机器学习算法的输出转换回原始训练集中的概率。

作者注（2015-10-07）：后来我发现这种技术俗称“下采样”

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

神爱温柔 2024-07-24 00:07:38

您正在计算以下内容

calculatedRatio = heads / (heads + tails / 1000)

，并且需要

realRatio = heads / (heads + tails)

求解两个尾部方程，得出以下方程。

tails = 1000 / calculatedRatio - 1000
tails = 1 / realRatio - 1

将两者结合起来会产生以下结果。

1000 / calculateRatio - 1000 = 1 / realRatio - 1

最后求解 realRatio。

realRatio = 1 / (1000 / calculatedRatio - 999)

看来是正确的。 calculatedRatio 0.5 产生 realRatio 1/1001，0.6 产生 3 / 2003。

You are calculating the following

calculatedRatio = heads / (heads + tails / 1000)

and you need

realRatio = heads / (heads + tails)

Solving both equations for tails yields the following equations.

tails = 1000 / calculatedRatio - 1000
tails = 1 / realRatio - 1

Combining both yields the following.

1000 / calculateRatio - 1000 = 1 / realRatio - 1

And finally solving for realRatio.

realRatio = 1 / (1000 / calculatedRatio - 999)

Seems to be correct. calculatedRatio 0.5 yields realRatio 1/1001, 0.6 yields 3 / 2003.

回复收藏 0 原文

~没有更多了~

关于作者

傾城如夢未必闌珊

暂无简介

0 文章

0 评论

608 人气

关注发私信

友情链接

文江博客

纠正收集数据中的已知偏差

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

qq_FjTq5B

18273202778

WordPress小学生

〃温暖了心ぐ

迷乱花海

niuniu

友情链接

纠正收集数据中的已知偏差

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

qq_FjTq5B

18273202778

WordPress小学生

〃温暖了心ぐ

迷乱花海

niuniu

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。