机器学习算法中如何确定哪些数据作为训练样本
最近参加了一个面试,面试官问了一个问题:如果我有上千万条数据,那我怎样确定将这些数据中的哪些数据作为训练样本集?
烦请各位讲一讲,我当时没答上来,就随便说了一个特征最明显的数据。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
最近参加了一个面试,面试官问了一个问题:如果我有上千万条数据,那我怎样确定将这些数据中的哪些数据作为训练样本集?
烦请各位讲一讲,我当时没答上来,就随便说了一个特征最明显的数据。
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(4)
难道不是随机抽样一部分作为训练数据?比如随机抽样70%做训练,10%做验证,20%做测试。
如果按照某个特征最明显来选择训练数据,岂不是违背了训练数据和测试数据独立同分布的假设?
在训练样本的时候
可以将N个样本随机划分成K层
在MATLAB中可以使用
crossvalind
来实现N个样本分成K份在训练样本的时候,可以按照indices来采样
交叉验证,随机分成K份,选一份测试,其他的训练。
随机选2/3