5.8 回归系数的解释
对于多元线性回归模型
\[ \left\{ \begin{array}{c} E(y|x)=\beta_0+\beta_1x+...+\beta_px_p\\ Var(y|x)=\sigma^2 \end{array} \right. \]
截距项\(\beta_0\)反映了当自变量均取0时因变量的期望。
而对于自变量的回归系数,理论上来说,\(\beta_i\)表示当固定其他自变量不变时,\(x_i\)每增加一个单位,因变量的期望能够变化\(\beta_i\)个单位。实际上,自变量之间往往具有相关性,可能无法做到固定某些自变量的值而改变其他自变量的值。也就是说,自变量之间所提供的信息是有重叠的部分。
考虑自变量\(X_i\)的影响,记其余自变量对应的设计矩阵为\(X_0\),对应的帽子矩阵为\(H_0=X_0(X_0'X_0)^{-1}X_0'\),则
\[ \begin{aligned} Y&=X_i\beta_i+X_0\beta_0+\varepsilon \\ (I-H_0)Y&=(I-H_0)X_i\beta_i+(I-H_0)X_0\beta_0+(I-H_0)\varepsilon \\ e_{Y|X_0}&=e_{X_i|X_0}\beta_i+(I-H_0)\varepsilon \end{aligned} \tag{5.89} \]
一般的多元线性回归中\(e=(I-H)Y\),即\((I-H)\)的作用是为了得到残差,而\(H\)则决定了是对谁而言的残差。像这里的\(H_0\)是对\(X_0\)而言的,也就是经过\(X_0\)调整后的残差
其中\(e_{a|b}\)表示a对b回归得到的残差,即a中不能由b线性解释的部分,称为“经过b调整后的a”。
上式表明原始多元线性回归中的\(\beta_i\)与经过\(X_0\)调整过后的\(Y\)对经过\(X_0\)调整过后的\(X_i\)回归得到的回归系数是一致的。
特别的,经过\(X_0\)调整过后的\(Y\)对经过\(X_0\)调整过后的\(X_i\)回归的最小二乘估计为
\[ \hat \beta_i = (X_i'(I-H_0)X_i)^{-1}X_i'(I-H)Y \tag{5.90} \]
注意有\((I-H_0)=(I-H_0)^2\)
既然原始多元线性回归中的\(\beta_i\)与经过\(X_0\)调整过后的\(Y\)对经过\(X_0\)调整过后的\(X_i\)回归得到的回归系数是一致的,那么\(\beta_i\)也反映了经过其余自变量线性调整后\(x_i\)对\(y\)额外的贡献,也称\(\beta_i\)为偏回归系数。
于是,称\(e_{Y|X_0}\)与\(e_{X_i|X_0}\)的散点图为偏回归图或附加变量图。
对该图拟合最小二乘回归线,其斜率就是\(\hat \beta_i\)
若附加变量图中的线性关系越强,说明新增变量\(x_i\)对已包含其余变量的回归方程增加的贡献就越大