11.3 决定是否收集更多数据
在建立第一个端到端的系统后,就可以度量算法性能并决定如何改进算法。许多机器学习新手都忍不住尝试很多不同的算法来进行改进。然而,收集更多的数据往往比改进学习算法要有用得多。
怎样判断是否要收集更多的数据?首先,确定训练集上的性能是否可接受。如果模型在训练集上的性能就很差,学习算法都不能在训练集上学习出良好的模型,那么就没必要收集更多的数据。反之,可以尝试增加更多的网络层或每层增加更多的隐藏单元,以增加模型的规模。此外,也可以尝试调整学习率等超参数的措施来改进学习算法。如果更大的模型和仔细调试的优化算法效果不佳,那么问题可能源自训练数据的质量。数据可能含太多噪声,或是可能不包含预测输出所需的正确输入。这意味着我们需要重新开始,收集更干净的数据或是收集特征更丰富的数据集。
如果训练集上的性能是可接受的,那么我们开始度量测试集上的性能。如果测试集上的性能也是可以接受的,那么就顺利完成了。如果测试集上的性能比训练集的要差得多,那么收集更多的数据是最有效的解决方案之一。这时主要的考虑是收集更多数据的代价和可行性,其他方法降低测试误差的代价和可行性,以及增加数据数量能否显著提升测试集性能。在拥有百万甚至上亿用户的大型网络公司,收集大型数据集是可行的,并且这样做的成本可能比其他方法要少很多,所以答案几乎总是收集更多的训练数据。例如,收集大型标注数据集是解决对象识别问题的主要因素之一。在其他情况下,如医疗应用,收集更多的数据可能代价很高或者不可行。一个可以替代的简单方法是降低模型大小或是改进正则化(调整超参数,如权重衰减系数,或是加入正则化策略,如Dropout)。如果调整正则化超参数后,训练集性能和测试集性能之间的差距还是不可接受,那么收集更多的数据是可取的。
在决定是否收集更多的数据时,也需要确定收集多少数据。如图5.4所示,绘制曲线显示训练集规模和泛化误差之间的关系是很有帮助的。根据走势延伸曲线,可以预测还需要多少训练数据来达到一定的性能。通常,加入总数目一小部分的样本不会对泛化误差产生显著的影响。因此,建议在对数尺度上考虑训练集的大小,例如在后续的实验中倍增样本数目。
如果收集更多的数据是不可行的,那么改进泛化误差的唯一方法是改进学习算法本身。这属于研究领域,并非对应用实践者的建议。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论