5.12 回归诊断
线性回归模型的估计、检验等操作依赖于假定。因此有必要去验证假定。
除此之外,还需对数据进行检验,看看是否存在异常点或强影响点。
5.12.1 残差分析
残差定义为\(e_i=y_i-\hat y_i\),反映了拟合效果的好坏,是随机扰动项的“观察值”,因此可根据残差的性状来判断随机扰动项假设的合理性。
5.12.1.1 不同形式的残差
普通残差
普通残差定义为\(e_i=y_i-\hat y_i\),具有\(E(e_i)=0, \; Var(e_i)=(1-h_{ii})\sigma^2, \; \rho(e_i,e_j)=\frac{-h_{ij}}{\sqrt{(1-h_{ii})(1-h_{jj})}}\)的性质。
注意\(Var(e_i)\)中包含着\(h_{ii}\),\(h_{ii}\)为杠杆值,是帽子矩阵\(H\)的第i个对角线元素,反映了自变量空间中第i个数据偏离数据中心的程度。特别的,\(h_{ii}\)越大,\(Var(e_i)\)越小,这表明当某个数据点距离数据中心较远时,会有把拟合直线拖向自己的倾向,因而其残差也可能会较小,称这样的数据点为高杠杆点。
已知\(tr(H)=\sum_{i=1}^n h_{ii}=p+1\),一个判断高杠杆点的准则是将杠杆值超过两倍杠杆值平均值的数据点认为是高杠杆点。
学生化残差
定义学生化残差为
\[ r_i=\frac{e_i}{\sqrt{\widehat{Var}(e_i)}}=\frac{e_i}{\sqrt{(1-h_{ii})\hat \sigma^2}} \tag{5.105} \]
\(r_i\)的性质有\(E(r_i)=0, \; Var(r_i)=1, \; \rho(r_i,r_j)=\frac{-h_{ij}}{\sqrt{(1-h_{ii})(1-h_{jj})}}\)。
在实际应用中可近似认为\(r_i\)相互独立且服从标准正态分布。
学生化残差相较于普通残差解决了方差不等的问题,但仍会受到异常值的影响,会使\(\hat \sigma^2\)偏大,继而让\(r_i\)偏小,因此不太适合根据\(|r_i|>3\)的准则来判断异常值。
删除残差
在计算残差\(e_i\)时,用不包含第i组观测点的数据\(Y_{(i)}\)和\(X_{(i)}\)进行回归得到回归方程,根据该回归方程对该组观测点进行预测得到\(\hat y_{(i)}\),则删除残差为\(e_{(i)}=y_i-\hat y_{(i)}\)。由于删除残差没有用到第i组观测点,因此能够在一定程度上减轻异常点的影响。
特别的,可证
\[ e_{(i)}=\frac{e_i}{1-h_{ii}} \tag{5.106} \]
参考https://zhuanlan.zhihu.com/p/49276967
删除学生化残差
删除学生化残差定义为
\[ r_{(i)}=\frac{e_i}{\sqrt{1-h_{ii}}\hat \sigma_{(i)}}=r_i(\frac{n-p-2}{n-p-1-r_i^2})^{\frac{1}{2}} \tag{5.107} \]
一般根据\(|r_{(i)}|>3\)来判断异常值点。
5.12.2 异常点和强影响点
5.12.2.1 异常点
异常点是从因变量的维度讨论的异常数据。
基于数据删除模型的异常点检验
数据删除模型如下所示
\[ \left\{ \begin{array}{c} Y_{(i)}=X_{(i)}\beta_{(i)}+\varepsilon_{(i)} \\ E(\varepsilon_{(i)})=0\\ Var(\varepsilon_{(i)})=\sigma^2 I_{n-1} \end{array} \right. \tag{5.108} \]
该方法即根据删除残差和删除学生化残差来判断是否为异常点。一般根据\(|r_{(i)}|>3\)所对应的数据点判定为异常点。
数据删除模型又是新的模型形式呀
基于均值漂移模型的异常点检验
均值漂移模型如下所示
\[ \left\{ \begin{array}{c} Y=X\beta+\gamma d_i+\varepsilon \\ E(\varepsilon)=0\\ Var(\varepsilon)=\sigma^2 I_{n} \end{array} \right. \tag{5.109} \]
其中\(d_i\)表示第i个分量为1而其他分量均为0的n维列向量。该模型表示,如果第i个观测点明显偏高或者偏低,那么\(d_i\)的系数\(\gamma\)应该是显著异于0的,而\(\gamma d_i\)会影响到第i个观测点的截距项,因此称“均值漂移模型”。
在识别异常点的过程中,注意有掩盖效应和淹没效应。
掩盖效应:假定的异常点个数小于实际个数,有可能一个都找不到。
淹没效应:假定的异常点个数大于实际个数,有可能将正常点误判为异常点。
5.12.2.2 强影响点
异常点是从因变量的维度讨论的异常数据,高杠杆点是从自变量的角度讨论的异常数据。而综合二者后,称能够对统计推断造成较大影响的点为强影响点。
杠杆值\(h_{ii}\)大于两倍杠杆值均值\(2\frac{p+1}{n}\)即可视为高杠杆点
识别方法:
Cook距离
定义Cook距离
\[ D_i=\frac{(\hat \beta -\hat \beta_{(i)})'X'X(\hat \beta -\hat \beta_{(i)})}{(p+1)\hat \sigma^2} = \frac{1}{p+1}(\frac{h_{ii}}{1-h_{ii}})r_i^2 \tag{5.110} \]
Cook距离度量了删除第i个数据点前后对回归系数估计值的变化情况。
一个粗略的判断准则为:当\(D_i < 0.5\),则认为不是强影响点,当\(D_i>1\),则认为是强影响点。
Welsch-Kuh统计量(DFFITS准则)
Welsch-Kuh统计量定义为
\[ WK_i=\frac{\hat y_i-\hat y_{(i)}}{\sqrt{\hat \sigma^2_{(i)}h_{ii}}}=\sqrt{(\frac{h_{ii}}{1-h_{ii}})r_{(i)}^2} \tag{5.111} \]
DFFITS准则度量了删除第i个数据点前后该点处拟合值的变化情况。
判断准则为若\(|WK_i|>2\sqrt{\frac{p+1}{n-p-1}}\)则视为强影响点。
Hadi统计量
Hadi统计量定义为
\[ H_i=\frac{h_{ii}}{1-h_{ii}}+\frac{p+1}{1-h_{ii}}\cdot \frac{d_i^2}{1-d_i^2} \tag{5.112} \]
其中\(d_i=\frac{e_i}{SSE}\)称为正规化残差。
称以\(\frac{p+1}{1-h_{ii}}\cdot \frac{d_i^2}{1-d_i^2}\)为横坐标,以\(\frac{h_{ii}}{1-h_{ii}}\)为纵坐标的散点图为“位势-残差图”。
5.12.3 异方差
若\(Var(\varepsilon_i)=\sigma^2_i\),即不同扰动项有不同的方差,则称之为“异方差”问题。
5.12.3.1 原因
遗漏重要变量
重要变量对因变量的影响被归结到随机扰动项中,而这些影响具有差异性,从而导致异方差。
模型设定误差
包括模型形式和变量选择,例如本应包含自变量的二次项但未包含,也会导致异方差问题。
数据的测量误差
在截面数据中个体间的差异较大
存在异常点
5.12.3.2 后果
最小二乘估计仍是无偏的,但不是最小方差线性无偏估计
无偏性没用到随机扰动项的同方差假定,因此仍具有无偏性。但求估计量的方差时需要用到同方差假定,因而不具有有效性。
最小二乘估计的方差估计量是有偏的
既然方差估计量是有偏的,那么凡是用到\(\hat \sigma^2\)的地方(显著性检验、预测)都会失效。
例如负的偏差会低估参数估计量的真实方差,这会导致对应的t统计量偏大,从而错误地拒绝了原假设。正的偏差会高估参数估计量的真实方差,会产生相反的结果。
5.12.3.3 识别
残差图
根据残差图观察残差的分布形态。
Spearman等级相关系数法
求得普通最小二乘下的残差,根据\(x_i\)与\(|e_i|\)的等级(秩)差来构造等级相关系数,对等级相关系数进行显著性检验,若拒绝原假设则说明自变量和\(|e_i|\)之间存在系统关系,也就说明存在异方差。
Goldfeld-Quandt检验
检验是否存在递增或递减的异方差情形。
Breusch-Pagan检验
\(e_i^2\)对所有自变量进行回归,看看残差平方是否和某个自变量有关系。
White检验
\(e_i^2\)对所有自变量、自变量平方及变量间的交互项进行回归,看看残差平方是否和某一项有关系。
5.12.3.4 补救
加权最小二乘法
加权最小二乘法通过为数据加权,来消除异方差性。对方差较大的观测赋予较小的权重,以牺牲大方差项的拟合效果为代价,改善小方差项的拟合效果。这个方法关键是要确定合适的权重,实际中可尝试采用残差平方的倒数最为权重。
采用异方差稳健标准误
既然异方差问题会影响\(\hat \sigma^2\)的估计,那么就直接采用更为稳健的标准误替代\(\hat \sigma^2\)。
Box-Cox变换
对因变量采取如下变换(因变量为正)
\[ y^{(\lambda)}=\begin{cases} \frac{y^\lambda-1}{\lambda}, &\lambda \neq 0 \\ \ln y , &\lambda=0 \end{cases} \tag{5.113} \]
可根据极大似然估计法确定\(\lambda\)。Box-Cox变换能够在一定程度上改善数据的非正态性、异方差性、自相关性。但除了对数变换(表示百分比变动)外其余变换都缺乏解释性。
5.12.4 自相关
若\(Cov(\varepsilon_i, \varepsilon_j) \neq 0\),则称之为“自相关”问题。
5.12.4.1 原因
遗漏重要变量
重要变量对因变量的影响被归结到随机扰动项中,而这些影响是前后相关联的,从而导致自相关。
模型设定误差
经济变量的滞后性会给序列带来自相关性
随机误差项本身的自相关
如地震不仅影响当期,其造成的影响还会持续一段时间。
因对数据加工整理而导致扰动项之间产生自相关性
如把月度数据合并为季度数据、对缺失值进行插值。
5.12.4.2 后果
最小二乘估计仍是无偏的,但不是最小方差线性无偏估计
无偏性没用到随机扰动项的无自相关假定,因此仍具有无偏性。但求估计量的方差时需要用到无自相关假定,因而不具有有效性。
最小二乘估计的方差被低估
同样会造成显著性检验、预测等操作失效。
5.12.5 多重共线性
若设计矩阵\(X\)的各个列向量之间是线性相关的,则称之为“完全多重共线性”。若是近似线性相关的,则称之为“多重共线性”。注意,多重共线性是一个程度轻重的问题。
5.12.5.2 后果
若是完全多重共线性,则\(X'X\)不可逆,无法得到最小二乘估计
最小二乘估计仍是线性无偏的,但多重共线性会导致各估计量的方差较大
同样会造成显著性检验、预测等操作失效。
回归系数的估计量的符号跟实际不符,估计量的含义变得不明确
5.12.5.3 识别
经验判断
\(R^2\)很高,F统计量值很大,但各个回归系数显著的较少
回归系数的符号与预期相反
解释变量之间两两高度相关
若模型中增加或减少一个自变量,回归系数的估计值产生较大的变化
条件数
考虑标准化后的矩阵\(X'X\),设其特征根为\(\lambda_1 \geq \lambda_2 \geq ... \geq \lambda_p \geq0\),则定义条件数为
\[ CI_i=\sqrt{\frac{\lambda_1}{\lambda_i}} \tag{5.114} \]
当条件数大于等于10时就有相对较为严重的多重共线性。
也可以不取根号,相对应的阈值也要改变
方差膨胀因子
定义方差膨胀因子为
\[ VIF_i = \frac{1}{1-R_i^2} \tag{5.115} \]
其中\(R_i^2\)为自变量\(x_i\)对其余自变量回归得到的样本决定系数。若\(VIF_i \geq 10\),则认为\(x_i\)与其他自变量之间存在较强的多重共线性问题。