7.11 重要的定义和等式

Gauss-Markov条件

\[ \begin{gather} E(\varepsilon)=0 \\ Var(\varepsilon_i)=\sigma^2 \\ Cov(\varepsilon_i, \varepsilon_j)=0, \; i \neq j \end{gather} \]

一元回归中\(\hat \beta_1\)与样本相关系数\(r\)、回归平方和\(SSR\)

\[ \begin{aligned} r&=\frac{L_{xy}}{\sqrt{L_{xx}L_{yy}}} \\ &= \hat \beta_1 \sqrt{\frac{L_{xx}}{L_{yy}}} \\ SSR&=\sum_{i=1}^n (\hat y_i -\bar y)^2 \\ &=\sum_{i=1}^n (\hat \beta_0+\hat \beta_1x_i-\bar y)^2 \\ &=\sum_{i=1}^n (\hat \beta_1x_i+\bar y -\hat \beta_1 \bar x - \bar y)^2 \\ &= \hat \beta_1^2 \sum_{i=1}^n (x_i-\bar x)^2 \\ &= \hat \beta_1^2 L_{xx} \end{aligned} \]

一元场合的线性系数\(h_{ij}\)

\[ \begin{gather} h_{ij}=\frac{1}{n}+\frac{(x_i-\bar x)(x_j -\bar x)}{L_{xx}}=h_{ji} \\ \hat y_i = \sum_{j=1}^n h_{ij}y_j \\ \hat y_0=\sum_{j=1}^n h_{0j}y_j \\ e_i = y_i - \sum_{j=1}^n h_{ij}y_j \\ \sum_{j=1}^n h_{ij}^2 = h_{ii} \\ \sum_{k=1}^n h_{ik}h_{jk} = h_{ij} \end{gather} \]

特别的，称\(h_{ii}\)为杠杆值，度量了自变量空间中第i个数据偏离数据中心的程度。

特别的，在证明最小二乘估计的性质时基本上都要将这些估计量转化为y的线性表达，无论一元还是多元。

方差分析表

列：方差来源|自由度|平方和|均方|F值|p值
一元线性回归中F统计量与t统计量的关系

\[ t^2=\begin{pmatrix}\frac{\hat \beta_1}{\sqrt{\hat \sigma^2/L_{xx}}}\end{pmatrix}^2=\frac{\hat \beta_1^2L_{xx}}{SSE/(n-2))}=\frac{SSR}{SSE/(n-2)}=F \]

其中

\[ \begin{aligned} SSR&=\sum_{i=1}^n (\hat y_i - \bar y)^2 \\ &= \sum_{i=1}^n (\hat \beta_0 + \hat \beta_1x_i-\bar y)^2 \\ &= \sum_{i=1}^n (\bar y - \hat \beta_1 \bar x + \hat \beta_1x_i-\bar y)^2 \\ &= \sum_{i=1}^n \hat \beta_1^2(x_i-\bar x)^2 \\ &= \hat \beta_1^2 L_{xx} \end{aligned} \]

一元线性回归中\(R^2\)与样本相关系数\(r\)的关系

\[ R^2=\frac{SSR}{SST}=\frac{\hat \beta_1^2 L_{xx}}{L_{yy}}=\frac{L_{xy}^2}{L_{xx}L_{yy}}=r^2 \]

这也可以视作\(\hat \beta_1\)与样本相关系数的关系

帽子矩阵或投影矩阵

\[ H=X(X'X)^{-1}X' \]

矩阵\(H\)为对称幂等矩阵，即\(H'=H, \; H^2=H\)。\(I-H\)也是对称幂等矩阵。对称幂等矩阵的秩和迹相等。

帽子矩阵的元素就是前面提到的线性系数\(h_{ij}\)。

中心化矩阵

\[ I-\frac{1}{n}1_n1_n' \]

多元场合的平方和分解式

\[ \begin{gather} SST=\sum_{i=1}^n(y_i-\bar y)^2=\sum_{i=1}^n [(1-\frac{1}{n})y_i -\frac{1}{n}\sum_{j \neq i}y_j]^2=Y'(I-\frac{1}{n}1_n1_n')Y \\ SSE=\sum_{i=1}^n(y_i-\hat y_i)^2=Y'(I-H)Y \\ SSR=SST-SSE=Y'(H-\frac{1}{n}1_n1_n')Y \end{gather} \]

偏F检验统计量

\[ F_j = \frac{(SSE_{(-j)}-SSE)/1}{SSE/(n-p-1)} \]

t检验统计量与偏F统计量的关系

\[ t_j^2=F_j \]

以\(SSE_{(-j)}\)为中介，为\(t_j\)检验统计量与样本偏决定系数之间建立了联系。注意\(SSE\)可通过标准误求得

调整的\(R^2\)

\[ R_{adj}^2 = 1-\frac{SSE/(n-p-1)}{SST/(n-1)}=1-\frac{n-1}{n-p-1}(1-R^2) \]

样本决定系数与\(Cor(\hat Y, Y)\)

\[ \begin{aligned} Cor(\hat Y, Y)&=\frac{(\hat Y - 1_n\bar y)'(Y-1_n\bar y)}{\sqrt{SSR \times SST}} \\ &= \frac{(\hat Y - 1_n\bar y)'(\hat Y + e -1_n\bar y)}{\sqrt{SSR \times SST}} \\ &= \frac{(\hat Y - 1_n\bar y)'(\hat Y-1_n\bar y)+(\hat Y - 1_n\bar y)'e}{\sqrt{SSR \times SST}} \\ &= \frac{SSR+0}{\sqrt{SSR \times SST}} \\ &= \sqrt{\frac{SSR}{SST}} \\ &= \sqrt{R^2} \\ Cor(\hat Y, Y)&=\frac{\sum_{i=1}^n(\hat y_i-\bar y)(y_i-\bar y)}{\sqrt{\sum_{i=1}^n(\hat y_i-\bar y)^2\sum_{i=1}^n(y_i-\bar y)^2}}=\frac{L_{\hat yy}}{\sqrt{L_{\hat y \hat y}L_{yy}}} \end{aligned} \]

样本复相关系数

\[ R=\sqrt{R^2}=\sqrt{\frac{SSR}{SST}} \]

原始多元线性回归中的\(\beta_i\)与经过\(X_0\)调整过后的\(Y\)对经过\(X_0\)调整过后的\(X_i\)回归得到的回归系数是一致的

\[ (I-H_0)Y=(I-H_0)X_i\beta_i+(I-H_0)\varepsilon \]

相关系数的显著性检验

考虑一元线性回归中的t检验和F检验，根据\(r^2=R^2=\frac{SSR}{SST}\)的关系式让t统计量和F统计量转化成对应的形式即可。

样本偏相关系数、样本偏决定系数

自变量间的样本偏相关系数

\[ r_{12;3,...p}=\frac{-\Delta_{12}}{\sqrt{\Delta_{11}\Delta_{22}}} \]

因变量与自变量的样本偏相关系数

\[ r_{y1;2,...p}=\frac{Cov(e_{x_1|x_{(-1)}},e_{y|x_{(-1)}})}{\sqrt{Var(e_{x_1|x_{(-1)}})Var(e_{y|x_{(-1)}})}}=Cor(e_{x_1|x_{(-1)}},e_{y|x_{(-1)}})=\sqrt{\frac{SSE_{(-1)}-SSE}{SSE_{(-1)}}} \]

因变量与自变量的样本偏决定系数

\[ r_{y1;2,...p}^2 = \frac{SSE_{(-1)}-SSE}{SSE_{(-1)}} \]

偏F统计量与样本偏决定系数

\[ \begin{aligned} F_1&=\frac{(n-p-1)r_{y1;2,...p}^2}{1-r_{y1;2,...p}^2} \\ r_{y1;2,...p}^2 &= \frac{F_1}{F_1+n-p-1} \end{aligned} \]