返回介绍

2.5 小结

发布于 2024-01-30 22:34:09 字数 633 浏览 0 评论 0 收藏 0

从某种意义上说,这是很理论化的一章,因为我们用简单示例介绍了很多一般性概念。让我们重温一下在一个经典数据集上的处理过程。到现在为止,这只是一个规模很小的问题。然而,它的优点在于能让我们把它画出来,看到我们具体在做什么。当我们换一个维度高、样本多的问题时,这一优点就不见了。但我们在这里获得的直观认识依然是有效的。

分类意味着对样本进行归纳,从而构建出一个模型(这是一个能够自动对新的、未分类的数据进行分类的规则)。这是机器学习的一个基础工具,我们在后面的几章中将会看到更多的示例。

我们还学习到,对于模型效果,训练误差是一个有误导性的、过于乐观的估计。相反,我们必须使用未用于训练的测试数据来评估效果。为了在测试中不浪费过多的样本,交叉验证计划可以帮我们兼得两者的优势(以更多的计算作为代价)。

我们还探究了一下特征工程问题。特征并不是天生就为你预备的,但选择和设计特征却是设计机器学习流程的一个组成部分。事实上,这通常是一个能够获得最大正确率提升的地方,这是因为更好的特征数据往往可以击败更漂亮的方法。在计算机视觉和基于文本分类等章中,我们将看到具体问题的相应示例。

在本章中,我们编写了自己的代码(当然,使用NumPy的时候除外)。在后面几章中将不会这样,但我们仍然需要用简单示例建立一个直觉印象,来阐明这些基本概念。

下一章,我们来看当数据中没有预设的类别信息时应当如何处理。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文