返回介绍

设置开发和测试集

基本误差分析

偏差和方差

学习曲线

与人类水平的表现相比

不同发行版的培训和测试

调试推理算法

端到端学习

按零件进行误差分析

总结

如何定义人类表现水平

发布于 2024-08-16 12:42:34 字数 5143 浏览 0 评论 0 收藏 0

假设你正在做一个医学成像应用程序,它可以自动依据X射线图像进行诊断。 除了一些基础的训练外,一个没有任何医学背景的人在该任务上的错误率为 15% . 一名新手医生的错误率为 10% ,而经验丰富的医生可以达到 5% . 如果由小型的医生团队对每一幅图像进行单独的讨论,错误率将降低至 2% . 上述的哪一种错误率可以定义为“人类表现水平”呢?

在该情景下,我将使用 2% 作为人类表现水平的代表来获得最优错误率。 你还可以将 2% 设置为期望的性能水平,因为与人类表现水平相比,前一章的所有三个理由都适用:

  • 易于从人为标签中获取数据。你可以让一组医生为你提供错误率为 2% 的标签。
  • 基于人类直觉进行误差分析。通过与医生讨论图像内容,你可以利用他们的直觉。
  • 使用人类表现水平来估计最优错误率,并设置可达到的“期望错误率”。 使用 2% 的误差作为我们对最优错误率的估计是合理的。最优错误率甚至可能低于 2%,但它不可能更高,因为一个医生团队就已经有可能达到 2% 的误差水平。相比之下,使用 5% 或 10% 作为最优错误率的估计就显得不合理了,因为我们知道这些估算值必然过高了。

当需要获得标签数据时,你可能不希望与整个团队讨论每一张图片,因为他们的时间很宝贵。或许你可以让新手医生给绝大多数的病例贴上标签,而把那些较难分析的病例交给更有经验的医生或医生团队。

如果你的系统目前的误差为 40%,那么不论是让初级医生(10% 误差)还是有经验的医生(5% 误差误)来给你的数据贴上标签,那都没有关系。是如果你的系统误差已经是 10%,那么将人类表现水平定义为 2% 将为你提供更好的途径来改进你的系统。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文