文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
7.4 小结
本章,我们从一个古老技巧(普通最小二乘法)开始介绍;这种方法有时表现得依然很好。然而,我们还看到了更多能够避免过拟合的现代方法,它们可以带来更好的结果。我们使用了岭回归、Lasso法和弹性网,它们都是最前沿的回归方法。
我们再一次看到依赖训练误差估计泛化能力的危险:这是一个过于乐观的估计,模型的训练误差可以为0,但我们知道这样的模型可能毫无用处。在深入思考这些问题之后,我们被引导至双层交叉验证。它很重要,该领域里还有很多东西没有完全内部化。在这期间,我们依赖scikit-learn的支持,实现了所有期望的操作,包括一种实现正确交叉验证的简单方式。
在本章的最后,我们开始转换方向,了解了一下推荐问题。现在,我们是通过一些已知的工具解决这个问题的:惩罚式回归。在下一章里,对于这个问题,我们将会看到新式的、更好的工具。它们将进一步提升效果。
这种推荐方式也有一个缺点,那就是要求用户对物品必须给出一个数字形式的评分。但在实际生活中,只有部分用户会给出评分。其实,还有另外一类比较容易获得的信息可以利用:哪些物品被一起购买。在下一章里,我们将会看到如何在一个框架中应用这一信息,这个框架叫做购物篮分析(basket analysis)。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论