当前位置：文江博客文章教程详情

机器学习实践指南

发布于 2024-07-26 12:40:42 字数 15143 浏览 22 评论 0

你可能在各种应用中听说过机器学习machine learning（ML），比如垃圾邮件过滤、光学字符识别（OCR）和计算机视觉。

开启机器学习之旅是一个涉及多方面的漫长旅途。对于新手，有很多的书籍，有学术论文，有指导练习，有独立项目。在这些众多的选择里面，很容易迷失你最初想学习的目标。

所以在今天的文章中，我会列出 7 个步骤（和 50 多个资源）帮助你开启这个令人兴奋的计算机科学领域的大门，并逐渐成为一个机器学习高手。

请注意，这个资源列表并不详尽，只是为了让你入门。除此之外，还有更多的资源。

1、学习必要的背景知识

你可能还记得 DataCamp 网站上的学习数据科学这篇文章里面的信息图：数学和统计学是开始机器学习（ML）的关键。基础可能看起来很容易，因为它只有三个主题。但不要忘记这些实际上是三个广泛的话题。

在这里需要记住两件非常重要的事情：

首先，你一定会需要一些进一步的指导，以了解开始机器学习需要覆盖哪些知识点。
其次，这些是你进一步学习的基础。不要害怕花时间，有了这些知识你才能构建一切。

第一点很简单：学习线性代数和统计学是个好主意。这两门知识是必须要理解的。但是在你学习的同时，也应该尝试学习诸如最优化和高等微积分等主题。当你越来越深入 ML 的时候，它们就能派上用场。

如果是从零开始的，这里有一些入门指南可供参考：

Khan 学院对于初学者是非常好的资源，可以考虑学习他们的线性代数和微积分课程。
在麻省理工学院 OpenCourseWare 网站上学习线性代数课程。
Coursera course 网站上对描述统计学、概率论和推论统计学的介绍内容。

统计学是学习 ML 的关键之一

如果你更多喜欢阅读书籍，请参考以下内容：

线性代数及其应用 Linear Algebra and Its Applications
应用线性代数 Applied Linear Algebra
线性代数解决的 3000 个问题 3,000 Solved Problems in Linear Algebra
麻省理工学院在线教材

然而，在大多数情况下，你已经对统计学和数学有了一个初步的了解。很有可能你已经浏览过上面列举的的那些资源。

在这种情况下，诚实地回顾和评价你的知识是一个好主意，是否有一些领域是需要复习的，或者现在掌握的比较好的？

如果你一切都准备好了，那么现在是时候使用 R 或者 Python 应用这些知识了。作为一个通用的指导方针，选择一门语言开始是个好主意。另外，你仍然可以将另一门语言加入到你的技能池里。

为什么这些编程知识是必需的？

嗯，你会看到上面列出的课程（或你在学校或大学学习的课程）将为你提供关于数学和统计学主题的更理论性的介绍（而不是应用性的）。然而，ML 非常便于应用，你需要能够应用你所学到的所有主题。所以最好再次复习一遍之前的材料，但是这次需要付诸应用。

如果你想掌握 R 和 Python 的基础，可以看以下课程：

DataCamp 上关于 Python 或者 R 的介绍性课程： Python 语言数据科学介绍或者 R 语言编程介绍。
Edx 上关于 Python 或者 R 的介绍性课程： Python 语言数据科学介绍和 R 语言数据科学介绍。
还有很多其他免费的课程。查看 Coursera 或者 Codeacademy 了解更多。

当你打牢基础知识后，请查看 DataCamp 上的博客 Python 统计学：40+ 数据科学资源。这篇文章提供了统计学方面的 40 多个资源，这些资源都是你开始数据科学（以及 ML）需要学习的。

还要确保你查看了关于向量和数组的这篇 SciPy 教程文章，以及使用 Python 进行科学计算的研讨会。

要使用 Python 和微积分进行实践，你可以了解下 SymPy 软件包。

2、不要害怕在 ML 的“理论”上浪费时间

很多人并不会花很多精力去浏览理论材料，因为理论是枯燥的、无聊的。但从长远来看，在理论知识上投入时间是至关重要的、非常值得的。你将会更好地了解机器学习的新进展，也能和背景知识结合起来。这将有助于你保持学习积极性。

此外，理论并不会多无聊。正如你在介绍中所看到的，你可以借助非常多的资料深入学习。

书籍是吸收理论知识的最佳途径之一。它们可以让你停下来想一会儿。当然，看书是一件非常平静的事情，可能不符合你的学习风格。不过，请尝试阅读下列书籍，看看它是否适合你：

机器学习教程 Machine Learning textbook， Tom Mitchell 著，书可能比较旧，但是却很经典。这本书很好的解释介绍了机器学习中最重要的课题，步骤详尽，逐层深入。
机器学习: 使数据有意义的算法艺术和科学Machine Learning: The Art and Science of Algorithms that Make Sense of Data（你可以在这里看到这本书的幻灯片版本）：这本书对初学者来说非常棒。里面讨论了许多实践中的应用程序，其中有一些是在 Tom Mitchell 的书中缺少的。
机器学习之向往 Machine Learning Yearning ：这本书由吴恩达Andrew Ng编写的，仍未完本，但对于那些正在学习 ML 的学生来说，这一定是很好的参考资料。
算法与数据结构 Algorithms and Data Structures 由 Jurg Nievergelt 和 Klaus Hinrichs 著。
也可以参阅 Matthew North 的面向大众的数据挖掘 Data Mining for the Masses。你会发现这本书引导你完成一些最困难的主题。
机器学习介绍 Introduction to Machine Learning 由 Alex Smola 和 S.V.N. Vishwanathan 著。

花些时间看书并研究其中涵盖的资料

视频和慕课对于喜欢边听边看来学习的人来说非常棒。慕课和视频非常的多，多到可能你都很难找到适合你的。下面列出了最知名的几个：

这个著名的机器学习慕课，是吴恩达Andrew Ng讲的，介绍了机器学习及其理论。别担心，这个慕课讲的非常好，一步一步深入，所以对初学者来说非常适用。
麻省理工学院 Open Courseware 的 6034 课程的节目清单，已经有点前沿了。在你开始本系列之前，你需要做一些 ML 理论方面的准备工作，但是你不会后悔的。

在这一点上，重要的是要将各种独立的技术融会贯通，形成整体的结构图。首先了解关键的概念：监督学习supervised learning和无监督学习unsupervised learning的区别、分类和回归等。手动（书面）练习可以派上用场，能帮你了解算法是如何工作的以及如何应用这些算法。在大学课程里你经常会找到一些书面练习，可以看看波特兰州立大学的 ML 课程。

3、开始动手

通过看书和看视频了解理论和算法都非常好，但是需要超越这一阶段，就要开始做一些练习。你要学着去实现这些算法，应用学到的理论。

首先，有很多介绍 Python 和 R 方面的机器学习的基础知识。当然最好的方法就是使用交互式教程：

Python 机器学习：Scikit-Learn 教程，在这篇教程里面，你可以学到使用 Scikit-Learn 构建模型的 KMeans 和支持向量机（SVM）相关的知名算法。
给初学者的 R 语言机器学习教程用 R 中的类和 caret 包介绍机器学习。
[Keras 教程：Python 深度学习 25 涵盖了如何一步一步的为分类和回归任务构建多层感知器（MLP）。

还请查看以下静态的（非互动的）教程，这些需要你在 IDE 中操作：

循序渐进：Python 机器学习：一步一步地学习 Scikit-Learn。
循序渐进：使用 Keras 开发你的第一个神经网络：按这个教程一步一步地使用 Keras 开发你的第一个神经网络。
你可以考虑看更多的教程，但是机器学习精要这篇教程是非常好的。

除了教程之外，还有一些课程。参加课程可以帮助你系统性地应用学到的概念。经验丰富的导师很有帮助。以下是 Python 和机器学习的一些互动课程：

用 scikit-learn 做监督学习：学习如何构建预测模型，调整参数，并预测在未知数据上执行的效果。你将使用 Scikit-Learn 操作真实世界的数据集。
用 Python 做无监督学习：展示给你如何从未标记的数据集进行聚类、转换、可视化和提取关键信息。在课程结束时，还会构建一个推荐系统。
Python 深度学习：你将获得如何使用 Keras 2.0 进行深度学习的实践知识，Keras 2.0 是前沿的 Python 深度学习库 Keras 的最新版本。
在 Python 中应用机器学习：将学习者引入到机器学习实践中，更多地关注技术和方法，而不是这些方法背后的统计学知识。

理论学习之后，花点时间来应用你所学到的知识。

对于那些正在学习 R 语言机器学习的人，还有这些互动课程：

机器学习介绍可以让你宏观了解机器学习学科最常见的技术和应用，还可以更多地了解不同机器学习模型的评估和训练。这门课程剩下的部分重点介绍三个最基本的机器学习任务：分类、回归和聚类。
R 语言无监督学习，用 R 语言从 ML 角度提供聚类和降维的基本介绍。可以让你尽快获得数据的关键信息。
实操机器学习涵盖了构建和应用预测功能的基本组成部分，其重点是实际应用。

最后，还有很多书籍以偏向实践的方式介绍了 ML 主题。如果你想借助书籍内容和 IDE 来学习，请查看这些书籍：

Python 机器学习 Python Machine Learning Book，Sebastian Raschka 著。
人工神经网络与深度学习导论：Python 应用实用指南 Introduction to Artificial Neural Networks and Deep Learning: A Practical Guide with Applications in Python，Sebastian Raschka 著。
R 语言机器学习 Machine Learning with R，Brett Lantz 著。

4、练习

实践比使用 Python 进行练习和修改材料更重要。这一步对我来说可能是最难的。在做了一些练习后看看其他人是如何实现 ML 算法的。然后，开始你自己的项目，阐述你对 ML 算法和理论的理解。

最直接的方法之一就是将练习的规模做得更大些。要做一个更大的练习，就需要你做更多的数据清理和功能工程。

从 Kaggle 开始。如果你需要额外的帮助来征服所谓的“数据恐惧”，请查看 Kaggle 的 Python 机器学习教程和 Kaggle 的 R 语言机器学习教程。这些将带给您快速的提升。
此后，你也可以自己开始挑战。查看这些网站，您可以在其中找到大量的 ML 数据集： UCI 机器学习仓库，用于机器学习的公开数据集和 data.world 。