设置开发和测试集
- 开发集和测试集的定义
- 开发集和测试集应该服从同一分布
- 开发集和测试集应该有多大?
- 使用单值评估指标进行优化
- 优化指标和满意度指标
- 通过开发集和度量指标加速迭代
- 何时修改开发集、测试集和指标
- 小结:建立开发集和测试集
基本误差分析
- 快速构建并迭代你的第一个系统
- 误差分析:根据开发集样本评估想法
- 在误差分析时并行评估多个想法
- 清洗误标注的开发集和测试集样本
- 将大型开发集拆分为两个子集,专注其一
- Eyeball 和 Blackbox 开发集该设置多大?
- 小结:基础误差分析
偏差和方差
学习曲线
与人类水平的表现相比
不同发行版的培训和测试
调试推理算法
端到端学习
按零件进行误差分析
总结
文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
如何定义人类表现水平
假设你正在做一个医学成像应用程序,它可以自动依据X射线图像进行诊断。 除了一些基础的训练外,一个没有任何医学背景的人在该任务上的错误率为 15% . 一名新手医生的错误率为 10% ,而经验丰富的医生可以达到 5% . 如果由小型的医生团队对每一幅图像进行单独的讨论,错误率将降低至 2% . 上述的哪一种错误率可以定义为“人类表现水平”呢?
在该情景下,我将使用 2% 作为人类表现水平的代表来获得最优错误率。 你还可以将 2% 设置为期望的性能水平,因为与人类表现水平相比,前一章的所有三个理由都适用:
- 易于从人为标签中获取数据。你可以让一组医生为你提供错误率为 2% 的标签。
- 基于人类直觉进行误差分析。通过与医生讨论图像内容,你可以利用他们的直觉。
- 使用人类表现水平来估计最优错误率,并设置可达到的“期望错误率”。 使用 2% 的误差作为我们对最优错误率的估计是合理的。最优错误率甚至可能低于 2%,但它不可能更高,因为一个医生团队就已经有可能达到 2% 的误差水平。相比之下,使用 5% 或 10% 作为最优错误率的估计就显得不合理了,因为我们知道这些估算值必然过高了。
当需要获得标签数据时,你可能不希望与整个团队讨论每一张图片,因为他们的时间很宝贵。或许你可以让新手医生给绝大多数的病例贴上标签,而把那些较难分析的病例交给更有经验的医生或医生团队。
如果你的系统目前的误差为 40%,那么不论是让初级医生(10% 误差)还是有经验的医生(5% 误差误)来给你的数据贴上标签,那都没有关系。是如果你的系统误差已经是 10%,那么将人类表现水平定义为 2% 将为你提供更好的途径来改进你的系统。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论