机器学习算法中如何确定哪些数据作为训练样本

发布于 2022-09-04 08:27:51 字数 99 浏览 21 评论 0

最近参加了一个面试,面试官问了一个问题:如果我有上千万条数据,那我怎样确定将这些数据中的哪些数据作为训练样本集?
烦请各位讲一讲,我当时没答上来,就随便说了一个特征最明显的数据。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(4

烛影斜 2022-09-11 08:27:51

难道不是随机抽样一部分作为训练数据?比如随机抽样70%做训练,10%做验证,20%做测试。

如果按照某个特征最明显来选择训练数据,岂不是违背了训练数据和测试数据独立同分布的假设?

站稳脚跟 2022-09-11 08:27:51

在训练样本的时候
可以将N个样本随机划分成K层
在MATLAB中可以使用crossvalind来实现N个样本分成K份

%% 样本划分
K = 10;
N = size(samples,1);    % samples为样本
indices = crossvalind('Kfold',N,k);    

在训练样本的时候,可以按照indices来采样

for i = 1:K
     test_example = (indices == i);  
    traing_example = ~test_example;     
    experiment_test = samples(test_example,:);  
    test_label = experiment_test(:,1);  
    exper_test = experiment_test(:,2:end);
    
    %%进行样本训练

end
你在看孤独的风景 2022-09-11 08:27:51

交叉验证,随机分成K份,选一份测试,其他的训练。

多像笑话 2022-09-11 08:27:51

随机选2/3

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文