5.1 分类与预测
就餐饮企业而言,经常会碰到如下问题。
1)如何基于菜品历史销售情况,以及节假日、气候和竞争对手等影响因素,对菜品销量进行趋势预测?
2)如何预测未来一段时间哪些顾客会流失,哪些顾客最有可能会成为VIP客户?
3)如何预测一种新产品的销售量,以及在哪种类型的客户中会较受欢迎?
除此之外,餐厅经理需要通过数据分析来帮助他了解具有某些特征的顾客的消费习惯;餐饮企业老板希望知道下个月的销售收入,原材料采购需要投入多少,这些都是分类与预测的例子。
分类和预测是预测问题的两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值。
5.1.1 实现过程
(1)分类
分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。
分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以方便地计算,所以分类属于有监督的学习。图5-1是一个将销售量分为“高、中、低”3分类问题。
图5-1 分类问题
(2)预测
预测是指建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制。
(3)实现过程
分类和预测的实现过程类似,以分类模型为例,实现过程如图5-2所示。
分类算法有两步过程:第一步是学习步,通过归纳分析训练样本集来建立分类模型得到分类规则;第二步是分类步,先用已知的测试样本集评估分类规则的准确率,如果准确率是可以接受的,则使用该模型对未知类标号的待测样本集进行预测。
预测模型的实现也有两步,类似于图5-2描述的分类模型,第一步是通过训练集建立预测属性(数值型的)的函数模型,第二步在模型通过检验后进行预测或控制。
图5-2 分类模型的实现步骤
5.1.2 常用的分类与预测算法
常用的分类与预测算法见表5-1。
表5-1 主要分类与预测算法简介
5.1.3 回归分析
回归分析[7]是通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的一种有效工具,在工商管理、经济、社会、医学和生物学等领域应用十分广泛。从19世纪初高斯提出最小二乘估计起,回归分析的历史已有200多年。从经典的回归分析方法到近代的回归分析方法,按照研究方法划分,回归分析研究的范围大致如下。
在数据挖掘环境下,自变量与因变量具有相关关系,自变量的值是已知的,因变量是要预测的。
常用的回归模型见表5-2。
表5-2 主要回归模型分类
线性回归模型是相对简单的回归模型,但是通常因变量和自变量之间呈现某种曲线关系,就需要建立非线性回归模型。
Logistic回归属于概率型非线性回归,分为二分类和多分类的回归模型。对于二分类的Logistic回归,因变量y只有“是、否”两个取值,记为1和0。假设在自变量x1,x2,…,xp作用下,y取“是”的概率是p,则取“否”的概率是1-p,研究的是当y取“是”发生的概率p与自变量x1,x2,…,xp的关系。
当自变量之间出现多重共线性时,用最小二乘估计的回归系数将会不准确,消除多重共线性的参数改进的估计方法主要有岭回归和主成分回归。
下面就较常用的二分类Logistic回归模型的原理进行介绍。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论