1. 引言
《应用回归分析》是一门在自然科学、管理科学和社会、经济等领域应用十分广泛的统计类课程。回归分析是以概率论与数理统计为基础,主要对随机现象统计资料进行分析和推断。在“大数据”时代背景下,学习和掌握应用回归分析理论,对于提高分析和解决实际问题的能力具有重大的意义。通过对课本的学习了解到回归模型的建立过程如图1所示。
Figure 1. Flow chart of regression model establishment
图1. 回归模型建立流程图
根据课本内容建立多元线性回归模型
的基本假设有:
是确定性变量;
,当
时
为
或
为0;
,
相互独立,
。而在实际的应用中发现同时满足基本假设的数据是非常少的,通常会出现多重共线性,异方差性和自相关性的问题。然而大多数的教材都只是给出了出现单一的问题时的解决办法,比如当出现多重共线性时通常采用逐步回归法和经验法;当出现异方差性时通常采用模型变换法、加权最小二乘法和模型的对数变换法;当出现自相关性时通常采用广义差分法和科克伦–奥科特迭代法 [1],并未考虑三种情况同时出现或其中两个同时出现时的情况。然而三种回归异常现象形成的原因和所造成的回归异常皆有所不同,若随意的进行处理,可能将使回归方程的拟合度达不到最优,更有甚者使得参数估计量经济含义不合理,从而失去实际应用价值。因此本文为了研究当一个回归问题中出现了上述三个回归异常中的两个或者三个的时候该如何解决的问题,下文将从理论分析的角度进行结论说明,再进行实例验证本文观点。
2. 同时处理多种回归异常的一般方法
由于大部分的教材针对在进行模型回归时,存在的多重共线性、异方差和自相关问题,通常只给出针对单一问题的解决方案,而在实际应用中可能出现多种异常都存在的情况,这种情况下直接线性回归会失效,而如何处理这种存在多种回归异常的情况目前还没有定论,因此本文就此进行了详细的探讨。查阅资料知当解释变量中存在多重共线性时将会导致参数估计值的方差增大,变量的显著性检验失去意义,区间估计和区间预测功能失效和参数估计量经济含义不合理 [2]。其中参数估计值的方差增大指的时虽然有OLS得出的β任然是线性无偏的,但不再是最小方差估计,不能准确的反应数据特征,同时变量的显著性检验失去意义也可能将重要的解释变量排除在回归拟合的模型之外,使得回归方程的拟合优度达不到最优 [3]。也会导致参数估计值的方差增大,而变大的方差容易使得区间预测的范围变大,使估计值稳定性变得很差,从而失去精确度,预测失去意义。在实际应用中建立回归模型就是为了解决具体的社会经济问题,运用模型进行经济因素的分析,经济变量的控制和经济决策的预测,这属于建立回归模型的初心,但是解释变量之间存在多重共线性可能会导致一些回归系数通不过显著性检验,回归系数的正负号出现倒置的情况,即参数估计量的经济含义不合理,违背了建立回归方程的初心。因此当同时出现违背基本假设的多种情况下,优先需要解决解释变量之间的多重共线性问题,使得建立的回归方程有实际的应用价值,正确的经济意义和能正常的进行更深一步的分析。
当一般多重共线性不是过分严重时,是不需要进行处理的,通过调整变量即可,此时关于异方差性和自相关性的优先检测顺序则需要根据原始数据类型来选择。因为异方差性出现的原因是截面数据中总体各单位的差距,而自相关一般出现在有关时间系列数据之中即经济系统的惯性,经济活动的滞后效应和蛛网现象等 [4]。通过对教材和其他资料的学习,本文认为如果是截面数据应当优先检验异方差性,如果是时间系列数据应当优先检验是否存在自相关性。
3. 案例分析
财政收入按收入形式可以分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。从定性分析的角度来说,财政收入会受到各种不同因素的影响,如:农业增加值、工业增加值、建筑业增加值、社会总人口数、社会消费额总额、国土受灾面积等等 [5]。本文建立模型仅选取我国农业增加值、第二产业增加值(包括工业和建筑业)、第三产业增加值、社会从业人数,以及其他收入水平5个因素为解释变量,分析它们对财政收入的影响程度 [6] [7]。
3.1. 提出因变量与自变量
y表示财政收入(亿元)为因变量;五个解释变量:
表示农业增加值(亿元),
表示第二产业增加值(亿元),
表示第三产业增加值(亿元),
表示社会从业人数(亿人),
表示其他收入水平(亿元)。(数据见表1,来源于《中国统计年鉴2021》)。
Table 1. Part of China statistical yearbook from 2005 to 2020
表1. 2005~2020年部分中国统计年鉴表
3.2. 作相关分析,设定理论模型
利用Python软件计算增广相关阵(见表2):从相关阵看出,所选自变量与y有一定的线性相关,用y与自变量作多元线性回归是合适的,因此可以设定理论模型为:
(1)
Table 2. Correlation between variables
表2. 各变量之间相关系数表
3.3. 计算结果
利用python软件进行计算,代码如下:
根据输出结果,可得:
1) 决定系数R2 = 0.999,看出回归方程高度显著,
2) 方差分析表,F = 1024,P值 = 0.000975,说明回归方程高度显著,自变量整体上对y有高度显著的线性影响,
3) 回归结果为R2 = 0.999,F = 1024回归方程为:
这里
的系数为负,显然是不符合理论常识,不具有正确的经济意义,认为可能是由于自变量之间的多重共线性导致,所以为了使之后的研究有正确的实际意义先进行多重共线性检验。
3.4. 多重共线性的诊断与处理
见上表,
与
的简单相关系数为0.699;
与
的简单相关系数为0.728.解释变量间存在一定的相关关系。所以本文运用方差扩大因子法,用Python诊断,代码如下:
观察所有解释变量的方差扩大因子,发现x1与x5的大小大于10,说明回归方程存在严重的多重共线性。粗略判定x1与x5之间存在较强的共线性。x5的VIF5 = 19.6078在所有方差扩大因子之间最大,所以剔除x5。再用python诊断,所得结果如下表3:
Table 3. Variance expansion factor table
表3. 方差扩大因子表
从输出结果看,四个方差扩大因子都小于10,回归系数也有合理的解释,说明此回归模型不存在强的多重共线性,回归方程为:
(2)
其R2 = 0.956,F = 16.45。
3.5. 异方差诊断与处理
由于实际问题存在错综复杂的原因,因此在建立实际问题的回归分析模型时,经常会出现某一因素或某些因素随着解释变量观测值的变化而对被解释变量产生不同的影响,导致随机误差项产生不同方差即异方差性。异方差性出现的原因主要为以下三点:第一,模型设定误差;第二,数据的测量误差;第三,截面数据中对总体各单位的差异。当出现异方差性时参数估计式仍然具有线性性,无偏性和一致性,却不再具有最小方差性。异方差性也会使t统计量值变小,而且在异方差的情况下,通常由OLS法得到的t统计量不再服从t分布,F统计量也不再服从F分布 [8]。因此t检验和F检验失去存在的基础同时会扩大估计区间和预测区间,降低精度。
检验是否存在异方差性通常用图示检验法,Goldfeld-Quanadt检验,White检验,ARCH检验和Glejser检验。本文采用等级相关系数法检验,计算随机误差项的绝对值与自变量之间的等级系数。从表4计算结果看出,在0.05的显著性水平下异方差性不明显,所以不用进行相关处理。
Table 4. Test table of rank correlation coefficient of each variable
表4. 各变量等级相关系数检验表
3.6. 自相关性的诊断与处理
1) DW检验
DW检验用于检验随机误差项具有一阶自回归形式的序列相关问题,也是就自相关检验。根据公式 DW = 2 (1 − P)计算DW的值,显著性水平α,同时根据DW检验决策规则判断自相关状态。DW检验法适用于解释变量X为非随机的小样本,并且只能用于检验随机误差项具有一阶自回归形式的自相关问题。
由Python计算得到DW = 2.541,可以看出残差序列存在负自相关,代码如下所示:
2) 迭代法消除自相关
设此时回归模型为:
误差项存在一阶自相关:
。
且:
,
则:
令:
即:
然后,用Python计算输出结果,得到新回归残差的DW为1.768,查表,n = 7,k = 5,显著性水平为α = 0.05,得
,
,DW检验仍然落在不确定区域。但一步迭代得误差项的标准差小于原来的标准差,所以进一步迭代。重复上述过程,再用Python输出结果得DW = 2.379,查表得DW检验基本落入无自相关区。且进一步迭代的误差项小于一步迭代的误差项,所以最后还原的原始方程为:
(3)
4. 结论
综上所述,本文介绍了一种处理回归分析中同时出现多种回归异常时的一般方法,并以一个实例来验证这个方法和技巧的具体过程。本文认为当同时出现违背基本假设的多种情况下,优先需要解决解释变量之间的多重共线性问题,需要使得建立的回归方程有实际的应用价值,正确的经济意义和能正常的进行更深一步的分析。而当一般多重共线性不是过分严重时,不需要进行处理,通过调整变量即可,此时关于异方差性和自相关性的优先检测顺序需要根据原始数据类型来选择 [9]。因为异方差性出现的原因是截面数据中总体各单位的差距,而自相关一般出现在有关时间系列数据之中即经济系统的惯性,经济活动的滞后效应和蛛网现象等,所以当数据为截面数据时的处理顺序是多重共线性–异方差性–自相关性,当数据为时间系列数据时的处理顺序为多重共线性–自相关性–异方差性。实际上,为了便于解释相关理论结果,本文所举的例子是选取一个比较简单的数据结构进行回归分析,而在实际应用中将会有更复杂的数据结构出现,本文观点也可在其回归分析中进行论证,而本文对于对比论证就不做过多论述。