文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
第 10 章 机器学习
机器学习是一个致力于研究并构建算法的研究领域,这些算法从实验数据中进行学习和预测。机器学习可以分为两大类:监督学习和无监督学习。
监督学习尝试从具有标记的训练数据集中推断出预测函数,其中训练数据集的每个观测样本属于哪一类是已知的(分类结果实际上也是数据集的一部分)。本章中我们将学习线性回归(包括第49单元中的逻辑回归)以及随机决策森林(第51单元)。很遗憾,由于篇幅所限,本章并未包含朴素贝叶斯分类、支持矢量机、线性判别分析和神经网络等内容。
无监督学习尝试在没有标记的数据中找出隐藏的结构。最流行的一些无监督技术包括k均值聚类(第50单元)和社区检测(第40单元第2小节)。分层聚类和主成分分析也是无监督学习的算法,但限于篇幅,本书并不包含相关内容。
这两种类型的机器学习工具都可用于探索性和预测性数据分析。在SciKit-Learn模块及其子模块中,可以找到相关工具的Python实现。如果你想实现的功能是对未出现的事物进行预测,而不是对已出现的事物进行解释,那首先要做的就是设置一个预测实验。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论