返回介绍

第11章 降维

发布于 2024-01-30 22:34:09 字数 576 浏览 0 评论 0 收藏 0

错进,错出,这就是我们所知道的真实生活。贯穿本书,在把机器学习方法用于训练数据的时候我们已经看到,这种模式仍然没有错。蓦然回首,我们发现机器学习中最有趣的挑战往往会包含一些特征工程的内容。我们通过对问题本身的理解,小心谨慎地构造出一些特征,希望机器学习算法可以采纳。

在本章,我们将走相反的路线,那就是降维。它会把无关或冗余的特征删掉。删减特征这件事初看起来似乎违背直觉,因为按说信息比较多应该比信息比较少更好才对。可以不忽略无用特征吗?比如,在机器学习算法里把它们的权重设为0。下面这些理由会告诉你为什么在实践中应该尽可能消减维度。

多余的特征会影响或误导学习器。并不是所有机器学习方法都有这种情况(例如,支持向量机就喜欢高维空间),但大多数模型在维度较小的情况下会比较安全。

另一个反对高维特征空间的理由是,更多特征意味着更多参数需要调整,过拟合的风险也越大。

我们用来解决问题的数据的维度可能只是虚高。真实维度可能比较小。

维度越少意味着训练越快,更多东西可以尝试,能够得到更好的结果。

如果我们想要可视化数据,就必须限制在两个或三个维度上;这就是所谓的数据可视化。

所以,这里将告诉你如何把数据中的垃圾扔掉,把有价值的部分保留下来。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文