当前位置：文江博客话题详情

算法机器学习数据挖掘

机器学习算法中如何确定哪些数据作为训练样本

发布于 2022-09-04 08:27:51 字数 99 浏览 26 评论 0

最近参加了一个面试，面试官问了一个问题：如果我有上千万条数据，那我怎样确定将这些数据中的哪些数据作为训练样本集？
烦请各位讲一讲，我当时没答上来，就随便说了一个特征最明显的数据。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（4）

烛影斜 2022-09-11 08:27:51

难道不是随机抽样一部分作为训练数据？比如随机抽样70%做训练，10%做验证，20%做测试。

如果按照某个特征最明显来选择训练数据，岂不是违背了训练数据和测试数据独立同分布的假设?

站稳脚跟 2022-09-11 08:27:51

在训练样本的时候
可以将N个样本随机划分成K层
在MATLAB中可以使用crossvalind来实现N个样本分成K份

%% 样本划分
K = 10;
N = size(samples,1);    % samples为样本
indices = crossvalind('Kfold',N,k);

在训练样本的时候,可以按照indices来采样

for i = 1:K
     test_example = (indices == i);  
    traing_example = ~test_example;     
    experiment_test = samples(test_example,:);  
    test_label = experiment_test(:,1);  
    exper_test = experiment_test(:,2:end);
    
    %%进行样本训练

end

你在看孤独的风景 2022-09-11 08:27:51

交叉验证，随机分成K份，选一份测试，其他的训练。

多像笑话 2022-09-11 08:27:51

随机选2/3

~没有更多了~

关于作者

幻想少年梦

暂无简介

文章

评论

28 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

櫻之舞

文章 0 评论 0

弥枳

文章 0 评论 0

m2429

文章 0 评论 0

寻找一个思念的角度

文章 0 评论 0

野却迷人

文章 0 评论 0

我怀念的。

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文