SQL Server 2008 数据挖掘的线性回归算法
SQL Server 2008 数据挖掘的线性回归算法
Microsoft 线性回归算法是 Microsoft 决策树算法的一种变体,有助于计算依赖变量和独立变量之间的线性关系,然后使用该关系进行预测。
该关系采用的表示形式是最能代表数据序列的线的公式。例如,以下关系图中的线是数据最可能的线性表示形式。
关系图中的每个数据点都有一个与该数据点与回归线之间距离关联的错误。回归方程式中的系数 a 和 b 可以调整回归线的角度和位置。可以对 a 和 b 进行调整,直到与所有点都关联的错误总数达到最低值,以此获得回归公式。
还有其他类型的使用多个变量的线性回归以及非线性回归方法。但是,线性回归是一种众所周知的有用方法,可对一些潜在因素中更改的响应进行建模。
示例
可以使用线性回归确定两个连续列之间的关系。例如,您可以使用线性回归根据生产或销售数据计算趋势线。还可以使用线性回归作为基础,来开发更复杂的数据挖掘模型,以评估数据列之间的关系。
尽管有许多计算线性回归的方法,而且这些方法不需要数据挖掘工具,但是使用 Microsoft 线性回归算法计算线性回归的优势在于可以自动计算并测试变量之间所有可能的关系。您不必选择计算方法,如计算最小平方法。但对于结果受多个因素影响的应用场景,线性回归可能会过分简化其中的关系。
算法的原理
Microsoft 线性回归算法是 Microsoft 决策树算法的一种变体。如果选择 Microsoft 线性回归算法,将会调用带有参数的 Microsoft 决策树算法特例,这些参数不但会限定算法行为,而且还会要求输入数据的类型。另外,在线性回归模型中,整个数据集都用于计算初始传递中的关系,而标准决策树模型则不断将数据拆分为更小的子集或树。
线性回归模型所需的数据
在准备用于线性回归模型的数据时,应该了解特定算法的要求。这包括所需数据量以及数据使用方式。此模型类型的要求如下:
单个 key 列:每个模型都必须包含一个用于唯一标识每条记录的数值列或文本列。不允许使用复合键。
可预测列:至少需要一个可预测列。可以在一个模型中包含多个可预测属性,但是这些可预测属性必须是连续数值数据类型。不能将 datetime 数据类型用作可预测属性,即使数据的本机存储是数值类型。
输入列:输入列必须包含连续数值数据,并且向其分配相应的数据类型。
查看线性回归模型
若要浏览模型,可以使用“Microsoft 树查看器”。线性回归模型的树结构非常简单,回归方程式的所有相关信息都包含在一个节点中。
对于线性回归模型,模型内容包括元数据、回归公式和有关输入值分布的统计信息。
创建预测
模型处理完毕后,结果将以一组统计信息和线性回归公式的形式存储,您可以利用这些结果来计算未来趋势。
除了通过选择 Microsoft 线性回归算法创建线性回归模型外,您还可以在可预测属性为连续数值数据类型时,创建包含回归的决策树模型。在这种情况下,如果找到适当的分离点,该算法会对数据进行拆分;但对于某些数据区域,则会创建回归公式。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
牛人。。不错,,,分享下经验。。。