返回介绍

第48单元 设计预测实验

发布于 2024-01-28 22:01:16 字数 2202 浏览 0 评论 0 收藏 0

数据的预测分析绝对是货真价实的科学实验,必须按照严谨的科学实验的方式来组织。数据模型的预测功能不能只是嘴上说说,对其预测能力的评估和验证是实验的重要部分。

请按照以下四个步骤,完成模型的建立、评估和验证。

(1) 将输入数据分成训练集和测试集(建议划分比例为70∶30)。然后将测试数据放在一旁,切勿将其用于准备数据模型。

(2) 仅使用训练数据构建数据模型。

(3) 将新模型应用于测试数据。

(4) 使用混淆矩阵或其他质量保证工具评估模型质量。如果模型通过测试,则结束,否则重复以上三个步骤直到模型通过测试。

二元混淆矩阵是一个两行两列的表,用于评估二元预测模型(预测某些属性是否成立的模型)的准确性,如下表所示。

表7 二元混淆矩阵

分类结果

真实值

真阳(TP)

假阴(FN)

假阳(FP)

真阴(TN)

假设测试集中的每一项是否具有预测属性是已知的,我们使用模型来预测每个项目的属性。(显然,这个假设仅适用于监督学习的模型!)TP是指模型正确地预测了属性为存在(真阳)的项目数;TN是指模型正确地预测了属性为不存在(真阴)的项目数;FP是指模型错误地预测了属性为存在(假阳)的项目数;FN是指模型错误地预测了属性为不存在(假阴)的项目数。

 其他机器学习技术

其他监督和无监督机器学习技术包括朴素贝叶斯分类、支持矢量机(SVN)、线性判别分析(LDA)和神经网络。它们中的一些已经包含在SciKit-Learn模块中了。

对混淆矩阵进行归纳可以得出定量的评价指标。

准确度是正确分类项目的比例:

准确度

具有较高的准确性是预测模型的最低要求,如果不能保证,模型就不是准确的!

精确度是所有阳性分类中真阳所占的比例:

精确度

灵敏度(或召回)是在所有阳真实值中真阳所占的比例:

灵敏度

灵敏度给出了模型识别观测属性的能力好坏。如果真阳是比较罕见的(例如一般人群中的癌症病例),模型就必须足够敏感才行。

特异性是在所有阴真实值中真阴所占的比例:

特异性

较高的特异性意味着模型能很好地捕获该属性的缺失。

许多统计模型具有高灵敏度、低特异性,或低灵敏度、高特异性,具体是哪一种取决于模型参数。参数选择的依据是:哪个度量对你而言更重要,就选择相应的参数。如果预测模型的特异性和灵敏度都很低,则可以将其转化成为一个很好的预测因子。

如果预测值不是二元的(例如分类或连续值),则必须使用其他质量控制工具。在本章的后续部分中,我们将学习部分这样的工具。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文