文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
2.5 小结
从某种意义上说,这是很理论化的一章,因为我们用简单示例介绍了很多一般性概念。让我们重温一下在一个经典数据集上的处理过程。到现在为止,这只是一个规模很小的问题。然而,它的优点在于能让我们把它画出来,看到我们具体在做什么。当我们换一个维度高、样本多的问题时,这一优点就不见了。但我们在这里获得的直观认识依然是有效的。
分类意味着对样本进行归纳,从而构建出一个模型(这是一个能够自动对新的、未分类的数据进行分类的规则)。这是机器学习的一个基础工具,我们在后面的几章中将会看到更多的示例。
我们还学习到,对于模型效果,训练误差是一个有误导性的、过于乐观的估计。相反,我们必须使用未用于训练的测试数据来评估效果。为了在测试中不浪费过多的样本,交叉验证计划可以帮我们兼得两者的优势(以更多的计算作为代价)。
我们还探究了一下特征工程问题。特征并不是天生就为你预备的,但选择和设计特征却是设计机器学习流程的一个组成部分。事实上,这通常是一个能够获得最大正确率提升的地方,这是因为更好的特征数据往往可以击败更漂亮的方法。在计算机视觉和基于文本分类等章中,我们将看到具体问题的相应示例。
在本章中,我们编写了自己的代码(当然,使用NumPy的时候除外)。在后面几章中将不会这样,但我们仍然需要用简单示例建立一个直觉印象,来阐明这些基本概念。
下一章,我们来看当数据中没有预设的类别信息时应当如何处理。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论