13.2 分析方法与过程
我国很多学者已经对财政收入的影响因素进行了很多研究,但是他们大多先建立财政收入与各待定的影响因素之间的多元线性回归模型,运用最小二乘估计方法来估计回归模型的系数,通过系数能否通过检验来检验它们之间的关系,这样的结果对数据的依赖程度很大,并且普通最小二乘估计求得的解往往是局部最优解,后续的检验可能就会失去应有的意义。
近几十年来,现代统计技术不断完善和发展,对新的数据运用新的方法来考察地方财政收入的影响因素是有必要的。本案例在已有研究的基础上运用Adaptive-Lasso变量选择方法来研究影响地方财政收入的因素。
在以往的文献中,对影响财政收入的因素的分析大多使用普通最小二乘法来对回归模型的系数进行估计,预测变量的选取采用的则是逐步回归。然而,无论是最小二乘法还是逐步回归,都有其不足之处。它们一般都局限于局部最优解而不是全局最优解。如果预测变量过多,子集选择的计算过程具有不可实行性,且子集选择具有内在的不连续性,从而导致子集选择极度多变。Lasso是近年来被广泛应用于参数估计和变量选择的方法之一,并且在确定的条件下,使用Lasso方法进行变量选择已经被证明是一致的。案例选用了Adaptive-Lasso方法来探究地方财政收入与各因素之间的关系。
Lasso是由Tibshirani[22](1996)提出的将参数估计与变量选择同时进行的一种正则化方法。Lasso参数估计被定义如下。
其中,λ为非负正则参数,称为惩罚项。
Lasso方法虽然可以解决最小二乘法和逐步回归局部最优估计的不足,但是其自身需要满足一定的苛刻条件。Hui ZOU[23](2006)提出了一种改进的Lasso方法,其改进之处为给不同的系数加上了不同的权重,被称为Adaptive-Lasso方法,定义如下。
其中,权重为由普通最小二乘法得出的系数。
设变量X(0)={X(0)(i),i=1,2…n}为一非负单调原始数据序列,建立灰色预测模型:首先对X(0)进行一次累加得到一次累加序列X(1)={X(1)(k),k=1,2,…,n}。
对X(1)可建立下述一阶线性微分方程。
即GM(1,1)模型。
求解微分方程,得到预测模型如下。
由于GM(1,1)模型得到的是一次累加量,将GM(1,1)模型所得数据经过累减还原为,即X(0)的灰色预测模型为:
后验差检验模型精度表见表13-2。
表13-2 后验差检验判别参照表
13.2.1 灰色预测与神经网络的组合模型
在Adaptive-Lasso变量选择的基础上,鉴于灰色预测对小数据量数据预测的优良性能,对单个选定的影响因素建立灰色预测模型,得到它们在2014年及2015年的预测值。由于神经网络较强的适用性和容错能力,对历史数据建立训练模型,把灰色预测的数据结果代入训练好的模型中,就得到了充分考虑历史信息的预测结果,即2015年某市财政收入及各个类别的收入。
图13-1为基于数据挖掘技术的财政收入分析预测模型流程,主要包括以下步骤[1]。
1)从某市统计局网站以及各统计年鉴搜集到该市财政收入以及各类别收入相关数据。
2)利用步骤1)形成的已完成数据预处理的建模数据,建立Adaptive-Lasso变量选择模型。
3)在步骤2)的基础上建立单变量的灰色预测模型以及人工神经网络预测模型。
4)利用步骤3)的预测值代入构建好的人工神经网络模型中,从而得到2014/2015年某市财政收入以及各类别收入的预测值。
图13-1 基于数据挖掘技术的财政收入分析预测模型流程
13.2.2 数据探索分析
影响财政收入(y)的因素有很多,在查阅大量文献的基础上,通过经济理论对财政收入的解释以及对实践的观察,考虑一些与能源消耗关系密切并且直观上有线性关系的因素,初步选取以下因素为自变量,分析它们之间的关系。
社会从业人数(x1):就业人数的上升伴随着居民消费水平的提高,从而间接增加财政收入。
在岗职工工资总额(x2):在岗职工工资总额反映的是社会分配情况,主要影响财政收入中的个人所得税、房产税以及潜在的消费能力。
社会消费品零售总额(x3):代表社会整体消费情况,是可支配收入在经济生活中的体现。当社会消费品零售总额增长时,表明社会消费意愿强烈,某种程度上会导致财政收入中增值税的增长;同时,当消费增长时,也会引起经济系统中其他方面发生变动,最终导致财政收入的增长。
城镇居民人均可支配收入(x4):居民收入越高,消费能力越强,同时意味着其工作积极性越高,创造出的财富越多,从而能带来财政收入的更快和持续增长。
城镇居民人均消费性支出(x5):居民在消费商品的过程中会产生各种税费,税费又是调节生产规模的手段之一。在商品经济发达的今天,居民消费得越多,对财政收入的贡献就越大。
年末总人口(x6):在地方经济发展水平既定的条件下,人均地方财政收入与地方人口数呈反比例变化。
全社会固定资产投资额(x7):全社会固定资产投资额是建造和购置固定资产的经济活动,即固定资产再生产活动。主要通过投资来促进经济增长,扩大税源,进而拉动财政税收收入整体增长。
地区生产总值(x8):表示地方经济发展水平。一般来讲,政府财政收入来源于即期的地区生产总值。在国家经济政策不变、社会秩序稳定的情况下,地方经济发展水平与地方财政收入之间存在着密切的相关性,越是经济发达的地区,其财政收入的规模就越大。
第一产业产值(x9):取消农业税、实施三农政策,第一产业对财政收入的影响更小。
税收(x10):由于其具有征收的强制性、无偿性和固定性特点,可以为政府履行其职能提供充足的资金来源。因此,各国都将其作为政府财政收入的最重要的收入形式和来源。
居民消费价格指数(x11):反映居民家庭购买的消费品及服务价格水平的变动情况,影响城乡居民的生活支出和国家的财政收入。
第三产业与第二产业产值比(x12):表示产业结构。第三产业生产总值代表国民经济水平,是财政收入的主要影响因素,当产业结构逐步优化时,财政收入也会随之增加。
居民消费水平(x13):在很大程度上受整体经济状况GDP的影响,从而间接影响地方财政收入。
(1)描述分析
首先对已有数据进行描述性统计分析,获得对数据的整体性认识,表13-3显示了主要变量的描述性统计结果。由表可见财政收入(y)的均值和标准差分别为618.08和609.25,这说明:第一,某市各年份财政收入存在较大差异。第二,2008年后,某市各年份财政收入大幅上升。
表13-3 主要变量的描述性统计
代码清单13-1是原始数据的概括性度量。
代码清单13-1 原始数据概括性度量
#-*- coding: utf-8 -*- import numpy as np import pandas as pd inputfile = '../data/data1.csv' #输入的数据文件 data = pd.read_csv(inputfile) #读取数据 r = [data.min(), data.max(), data.mean(), data.std()] #依次计算最小值、最大值、均值、标准差 r = pd.DataFrame(r, index = ['Min', 'Max', 'Mean', 'STD']).T #计算相关系数矩阵 np.round(r, 2) #保留两位小数
代码详见:demo/code/gaikuo.py
(2)相关分析
相关系数可以用来描述定量和变量之间的关系,初步判断因变量与解释变量之间是否具有线性相关性。原始数据求解Pearson相关系数如代码清单13-2所示。
表13-4 变量Pearson相关系数矩阵
由表13-4可知,居民消费价格指数(x11)与财政收入的线性关系不显著,而且呈现负相关。其余变量均与财政收入呈现高度的正相关关系。
代码清单13-2 原始数据求解Pearson相关系数
#-*- coding: utf-8 -*- import numpy as np import pandas as pd inputfile = '../data/data1.csv' #输入的数据文件 data = pd.read_csv(inputfile) #读取数据 np.round(data.corr(method = 'pearson'), 2) #计算相关系数矩阵,保留两位小数
代码详见:demo/code/correlation.py
13.2.3 模型构建
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论