1.1 梦之队:机器学习与 Python
机器学习的目标就是通过若干示例(怎样做或不做一个任务)让机器(软件)学会完成任务。假设每天早上当你打开电脑,都会做同样的事情:移动电子邮件,把属于某一特定主题的邮件放入同一个文件夹。过了一段时间,你感到厌烦了,开始琢磨是否可以让这种琐事自动完成。一种方法是分析你的大脑,将整理电子邮件时大脑思考过程中的规则记录下来。然而,这种方式相当麻烦,而且总不完美。你会漏掉一些规则,同时又会对另一些规则细致过头。另一种更好的、更加面向未来的方法是将这个过程自动化,即选择一组电子邮件元数据信息和邮件正文/文件夹名对,让算法据此选出最好的规则集。这些数据对就是你的训练数据,而生成的规则集(也叫做模型)以后能够应用到新的电子邮件上。这就是最简单的机器学习。
当然,机器学习(也常称作数据挖掘或预测分析)本身并不是一个全新的领域。正相反,它这些年来的成功可以归因于务实地采用了已经验证了的坚实技术,以及借鉴其他成功领域的真知灼见,例如统计学。统计学的目的是通过学习更多的潜在模式和关联关系,来帮助人类深入理解数据。对机器学习的成功应用了解得越多(你已经查看过kaggle.com 了吧?),越会发现应用统计学是机器学习专家经常研究的一个领域。
本书后面将会介绍,构想出一个合适的机器学习(ML)方法,从来都不是一个瀑布式的过程。相反,你需要反复分析,在各色各样的机器学习算法中尝试不同版本的输入数据。这种探索方式非常适合Python。作为一门解释性高级编程语言,Python似乎就是专为尝试不同事物而设计的。更重要的是,用它进行这些尝试非常迅捷。无疑,它比C语言或其他类似的静态类型编程语言要慢一点。然而,它有着大量易用的库,而这些库往往是用C语言编写的,因此你不必为了敏捷性而牺牲速度。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论