当前位置：文江博客话题详情

machine-learning

在机器学习中，可以采取哪些措施来限制所需训练样本的数量？

发布于 2024-11-28 15:13:54 字数 67 浏览 0 评论 0原文

在许多应用中，创建大型训练数据集即使不是完全不可能，也是非常昂贵的。那么可以采取哪些步骤来限制获得良好精度所需的尺寸呢？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

得不到的就毁灭 2024-12-05 15:13:55

嗯，机器学习的一个分支专门致力于解决这个问题（标记数据集的成本很高）：semi -监督学习

老实说，根据我的经验，计算时间非常长，而且与完全标记的数据集相比，结果显得苍白……但是最好在大型未标记数据集上进行训练，而不是什么都没有！

编辑：嗯，我首先将问题理解为“标记数据集很昂贵”，而不是“无论如何，数据集的大小都会很小”

好吧，除其他外，我会：

使用 < 调整我的参数a href="http://en.wikipedia.org/wiki/Cross-validation_%28statistics%29#Common_types_of_cross-validation" rel="nofollow">留下一个交叉验证。计算成本最高，但却是最好的。
选择收敛速度相当快的算法。（你需要一个比较表，我现在没有）
需要非常好的泛化属性。在这种情况下，弱分类器的线性组合非常好。 kNN（k 个最近邻）非常糟糕。
偏置“泛化”参数。大多数算法都是在泛化（规律性）和质量（训练集是否被分类器很好地分类？）之间进行折衷。如果您的数据集很小，您应该使算法偏向泛化（在通过交叉验证调整参数之后）

回复收藏 0 原文

~没有更多了~

关于作者

临风闻羌笛

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

初遇

文章 0 评论 0

听闻余生

文章 0 评论 0

Z_dy

文章 0 评论 0

左岸枫

文章 0 评论 0

1848719402

文章 0 评论 0

婷

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文