5.11 重要的定义和等式
- Gauss-Markov条件
\[ \begin{gather} E(\varepsilon)=0 \\ Var(\varepsilon_i)=\sigma^2 \\ Cov(\varepsilon_i, \varepsilon_j)=0, \; i \neq j \end{gather} \]
- 一元回归中\(\hat \beta_1\)与样本相关系数\(r\)、回归平方和\(SSR\)
\[ \begin{aligned} r&=\frac{L_{xy}}{\sqrt{L_{xx}L_{yy}}} \\ &= \hat \beta_1 \sqrt{\frac{L_{xx}}{L_{yy}}} \\ SSR&=\sum_{i=1}^n (\hat y_i -\bar y)^2 \\ &=\sum_{i=1}^n (\hat \beta_0+\hat \beta_1x_i-\bar y)^2 \\ &=\sum_{i=1}^n (\hat \beta_1x_i+\bar y -\hat \beta_1 \bar x - \bar y)^2 \\ &= \hat \beta_1^2 \sum_{i=1}^n (x_i-\bar x)^2 \\ &= \hat \beta_1^2 L_{xx} \end{aligned} \]
- 一元场合的线性系数\(h_{ij}\)
\[ \begin{gather} h_{ij}=\frac{1}{n}+\frac{(x_i-\bar x)(x_j -\bar x)}{L_{xx}}=h_{ji} \\ \hat y_i = \sum_{j=1}^n h_{ij}y_j \\ \hat y_0=\sum_{j=1}^n h_{0j}y_j \\ e_i = y_i - \sum_{j=1}^n h_{ij}y_j \\ \sum_{j=1}^n h_{ij}^2 = h_{ii} \\ \sum_{k=1}^n h_{ik}h_{jk} = h_{ij} \end{gather} \]
特别的,称\(h_{ii}\)为杠杆值,度量了自变量空间中第i个数据偏离数据中心的程度。
特别的,在证明最小二乘估计的性质时基本上都要将这些估计量转化为y的线性表达,无论一元还是多元。
方差分析表
列:方差来源|自由度|平方和|均方|F值|p值
一元线性回归中F统计量与t统计量的关系
\[ t^2=\begin{pmatrix}\frac{\hat \beta_1}{\sqrt{\hat \sigma^2/L_{xx}}}\end{pmatrix}^2=\frac{\hat \beta_1^2L_{xx}}{SSE/(n-2))}=\frac{SSR}{SSE/(n-2)}=F \]
其中
\[ \begin{aligned} SSR&=\sum_{i=1}^n (\hat y_i - \bar y)^2 \\ &= \sum_{i=1}^n (\hat \beta_0 + \hat \beta_1x_i-\bar y)^2 \\ &= \sum_{i=1}^n (\bar y - \hat \beta_1 \bar x + \hat \beta_1x_i-\bar y)^2 \\ &= \sum_{i=1}^n \hat \beta_1^2(x_i-\bar x)^2 \\ &= \hat \beta_1^2 L_{xx} \end{aligned} \]
- 一元线性回归中\(R^2\)与样本相关系数\(r\)的关系
\[ R^2=\frac{SSR}{SST}=\frac{\hat \beta_1^2 L_{xx}}{L_{yy}}=\frac{L_{xy}^2}{L_{xx}L_{yy}}=r^2 \]
这也可以视作\(\hat \beta_1\)与样本相关系数的关系
- 帽子矩阵或投影矩阵
\[ H=X(X'X)^{-1}X' \]
矩阵\(H\)为对称幂等矩阵,即\(H'=H, \; H^2=H\)。\(I-H\)也是对称幂等矩阵。对称幂等矩阵的秩和迹相等。
帽子矩阵的元素就是前面提到的线性系数\(h_{ij}\)。
- 中心化矩阵
\[ I-\frac{1}{n}1_n1_n' \]
- 多元场合的平方和分解式
\[ \begin{gather} SST=\sum_{i=1}^n(y_i-\bar y)^2=\sum_{i=1}^n [(1-\frac{1}{n})y_i -\frac{1}{n}\sum_{j \neq i}y_j]^2=Y'(I-\frac{1}{n}1_n1_n')Y \\ SSE=\sum_{i=1}^n(y_i-\hat y_i)^2=Y'(I-H)Y \\ SSR=SST-SSE=Y'(H-\frac{1}{n}1_n1_n')Y \end{gather} \]
- 偏F检验统计量
\[ F_j = \frac{(SSE_{(-j)}-SSE)/1}{SSE/(n-p-1)} \]
- t检验统计量与偏F统计量的关系
\[ t_j^2=F_j \]
以\(SSE_{(-j)}\)为中介,为\(t_j\)检验统计量与样本偏决定系数之间建立了联系。注意\(SSE\)可通过标准误求得
- 调整的\(R^2\)
\[ R_{adj}^2 = 1-\frac{SSE/(n-p-1)}{SST/(n-1)}=1-\frac{n-1}{n-p-1}(1-R^2) \]
- 样本决定系数与\(Cor(\hat Y, Y)\)
\[ \begin{aligned} Cor(\hat Y, Y)&=\frac{(\hat Y - 1_n\bar y)'(Y-1_n\bar y)}{\sqrt{SSR \times SST}} \\ &= \frac{(\hat Y - 1_n\bar y)'(\hat Y + e -1_n\bar y)}{\sqrt{SSR \times SST}} \\ &= \frac{(\hat Y - 1_n\bar y)'(\hat Y-1_n\bar y)+(\hat Y - 1_n\bar y)'e}{\sqrt{SSR \times SST}} \\ &= \frac{SSR+0}{\sqrt{SSR \times SST}} \\ &= \sqrt{\frac{SSR}{SST}} \\ &= \sqrt{R^2} \\ Cor(\hat Y, Y)&=\frac{\sum_{i=1}^n(\hat y_i-\bar y)(y_i-\bar y)}{\sqrt{\sum_{i=1}^n(\hat y_i-\bar y)^2\sum_{i=1}^n(y_i-\bar y)^2}}=\frac{L_{\hat yy}}{\sqrt{L_{\hat y \hat y}L_{yy}}} \end{aligned} \]
- 样本复相关系数
\[ R=\sqrt{R^2}=\sqrt{\frac{SSR}{SST}} \]
- 原始多元线性回归中的\(\beta_i\)与经过\(X_0\)调整过后的\(Y\)对经过\(X_0\)调整过后的\(X_i\)回归得到的回归系数是一致的
\[ (I-H_0)Y=(I-H_0)X_i\beta_i+(I-H_0)\varepsilon \]
- 相关系数的显著性检验
考虑一元线性回归中的t检验和F检验,根据\(r^2=R^2=\frac{SSR}{SST}\)的关系式让t统计量和F统计量转化成对应的形式即可。
- 样本偏相关系数、样本偏决定系数
- 自变量间的样本偏相关系数
\[ r_{12;3,...p}=\frac{-\Delta_{12}}{\sqrt{\Delta_{11}\Delta_{22}}} \]
- 因变量与自变量的样本偏相关系数
\[ r_{y1;2,...p}=\frac{Cov(e_{x_1|x_{(-1)}},e_{y|x_{(-1)}})}{\sqrt{Var(e_{x_1|x_{(-1)}})Var(e_{y|x_{(-1)}})}}=Cor(e_{x_1|x_{(-1)}},e_{y|x_{(-1)}})=\sqrt{\frac{SSE_{(-1)}-SSE}{SSE_{(-1)}}} \]
- 因变量与自变量的样本偏决定系数
\[ r_{y1;2,...p}^2 = \frac{SSE_{(-1)}-SSE}{SSE_{(-1)}} \]
- 偏F统计量与样本偏决定系数
\[ \begin{aligned} F_1&=\frac{(n-p-1)r_{y1;2,...p}^2}{1-r_{y1;2,...p}^2} \\ r_{y1;2,...p}^2 &= \frac{F_1}{F_1+n-p-1} \end{aligned} \]