5.9 中心化与标准化
各个变量的量纲不同,会导致原始设计矩阵的数值差异较大,基于该设计矩阵得到的最小二乘估计不具有可比性。
5.9.1 中心化
中心化处理,即变量减去其均值。中心化的意义能够将未知参数的个数降低1,并在一定程度上降低舍入误差。
记\(X=\begin{pmatrix}1_n & \tilde X\end{pmatrix}, \; \beta = \begin{pmatrix}\beta_0 \\ \tilde \beta \end{pmatrix}, \; \gamma = \begin{pmatrix}\gamma_0 \\ \tilde \gamma \end{pmatrix}, \; \alpha = \begin{pmatrix}\alpha_0 \\ \tilde \alpha \end{pmatrix}, \;\bar X = \begin{pmatrix} \bar x_1 & \cdots & \bar x_p \end{pmatrix}'\)。
\(X\)的第一列均为1,\(\tilde X\)才是纯粹的自变量矩阵,注意区分
则
\[ \begin{gather} \tilde X_c = \begin{pmatrix}I-\frac{1}{n}1_n1_n' \end{pmatrix}\tilde X \\ Y_c = Y-1_n\bar y \end{gather} \tag{5.91} \]
\(1_n\)表示长度为n且元素均为1的列向量
其中\((I-\frac{1}{n}1_n1_n')\)为中心化矩阵,下标\(c\)表示经过中心化处理后的矩阵或向量。
对此得到如下样本回归模型及相应的最小二乘估计
- 原始模型
\[ \begin{gather} E(Y)=1_n\beta_0+\tilde X \tilde \beta \\ \\ \begin{pmatrix} \hat \beta_0 \\ \hat{\tilde \beta} \end{pmatrix}=\begin{pmatrix} \bar y - \bar X'\hat{\tilde \beta} \\ (\tilde X_c'\tilde X_c)^{-1}\tilde X_c' Y \end{pmatrix} \end{gather} \tag{5.91} \]
- 对X进行中心化处理
\[ \begin{gather} E(Y)=1_n\gamma_0+\tilde X_c \tilde \gamma \\ \\ \begin{pmatrix} \hat \gamma_0 \\ \hat{\tilde \gamma} \end{pmatrix}=\begin{pmatrix} \bar y \\ (\tilde X_c'\tilde X_c)^{-1}\tilde X_c' Y \end{pmatrix}=\begin{pmatrix} \bar y \\ \hat{\tilde \beta} \end{pmatrix} \end{gather} \tag{5.92} \]
- 对Y和X进行中心化处理
\[ \begin{gather} E(Y_c)=1_n\alpha_0+\tilde X_c \tilde \alpha \\ \\ \begin{pmatrix} \hat \alpha_0 \\ \hat{\tilde \alpha} \end{pmatrix}=\begin{pmatrix} 0 \\ (\tilde X_c'\tilde X_c)^{-1}\tilde X_c' Y \end{pmatrix}=\begin{pmatrix} 0 \\ \hat{\tilde \beta} \end{pmatrix} \end{gather} \tag{5.93} \]
小结:
仅对X进行中心化处理,则斜率项的估计不变,截距项的估计值变为\(\bar y\)。
对Y和X进行中心化处理,则斜率项的估计不变,截距项的估计值变为0。
自变量和因变量任何形式的位移变化均不改变斜率项的估计值,继而也不改变线性回归模型的拟合优度。
5.9.2 标准化
变量减去其均值并除以其标准差即为标准化处理。标准化处理能够消除量纲不同和数量级差异所带来的影响。
沿用中心化的记号,并记\(D_X=diag(sd(x_1),...,sd(x_p))\)。
则
\[ \begin{gather} \tilde X^*=\tilde X_cD_X^{-1}=(I-\frac{1}{n}1_n1_n')\tilde X D_X^{-1} \\ Y^*=\frac{Y_c}{sd(y)}=\frac{1}{sd(y)}(I-\frac{1}{n}1_n1_n')Y \end{gather} \tag{5.94} \]
对此得到如下样本回归模型及相应的最小二乘估计
- 仅对X进行标准化处理
\[ \begin{gather} E(Y)=1_n\delta_0+\tilde X^*\tilde \delta \\ \\ \begin{pmatrix} \hat \delta_0 \\ \hat{\tilde \delta} \end{pmatrix}= \begin{pmatrix} \bar y \\ (\tilde{X^{\ast}}'\tilde{X^\ast})^{-1}\tilde{X^{\ast}}'Y \end{pmatrix} = \begin{pmatrix} \bar y \\ D_X\hat{\tilde \beta} \end{pmatrix} \end{gather} \tag{5.95} \]
- 对Y和X进行标准化处理
\[ \begin{gather} E(Y^*)=1_n\eta_0+\tilde X^*\tilde \eta \\ \\ \begin{pmatrix} \hat \eta_0 \\ \hat{\tilde \eta} \end{pmatrix}= \begin{pmatrix} 0 \\ (\tilde{X^{\ast}}'\tilde{X^\ast})^{-1}\tilde{X^{\ast}}'Y^* \end{pmatrix} = \begin{pmatrix} 0 \\ \frac{1}{sd(y)}D_X\hat{\tilde \beta} \end{pmatrix} \end{gather} \tag{5.96} \]
小结:
- 仅对X进行标准化处理,由于标准化处理中包含了中心化处理,因此截距项为\(\bar y\),而斜率项则为原来的\(sd(x_i)\)倍。
\(\beta_i^\ast \frac{x_i}{sd(x_i)}=\frac{\beta_i^\ast}{sd(x_i)}x_i=\beta_i x_i\),故\(\beta_i^*=sd(x_i)\beta_i\)
- 对Y和X进行标准化处理,则截距项变为0,斜率项为原来的\(\frac{sd(x_i)}{sd(y)}\)倍。
\(\frac{sd(y)}{sd(x_i)} \beta_i^\ast=\beta_i\),故\(\beta_i^\ast = \frac{sd(x_i)}{sd(y)} \beta_i\)
- 标准化涉及到尺度变换和位移变化,因此既有中心化的特征(截距项),又有倍数关系(斜率项)。