5.10 相关系数与偏相关系数
5.10.1 样本相关系数
定义两个变量间的相关系数
\[ r=\frac{\sum_{i=1}^n (x_i-\bar x)(y_i-\bar y)}{\sqrt{\sum_{i=1}^n (x_i-\bar x)^2\sum_{i=1}^n (y_i-\bar y)^2}}=\frac{L_{xy}}{\sqrt{L_{xx}L_{yy}}} \tag{5.97} \]
样本相关系数反映了两个变量间线性关系的密切程度。特别的,样本相关系数为0并不意味着两个变量之间没有任何关系,只是没有线性相关关系。样本相关系数的大小与样本量有关,当样本量较小时,\(|r|\)容易接近1,当样本量较大时,\(|r|\)容易偏小。
5.10.1.1 样本相关系数的显著性检验
考虑两个变量间的一元线性回归模型。回顾式(5.80)与式(5.70),可得
\[ \begin{aligned} F&=\frac{SSR/1}{SSE/(n-2)} \\ &= (n-2)\frac{SSR/SST}{SSE/SST} \\ &= (n-2)\frac{r^2}{1-r^2} \\ r^2&=\frac{F}{F+n-2} \end{aligned} \tag{5.98} \]
故样本相关系数的显著性检验可通过一元场合的F检验进行,其中\(F \sim F(1,n-2)\),原假设为\(\rho=0\)。
或者根据一元场合式(5.67)可得
\[ \begin{aligned} t&=\frac{\hat \beta_1}{\sqrt{\hat \sigma^2/L_{xx}}} \\ &= \frac{\hat \beta_1\sqrt{L_{xx}}}{\sqrt{SSE/(n-2)}} \\ &= \frac{\sqrt{n-2}\frac{L_{xy}}{\sqrt{L_{xx}L_{yy}}}}{\sqrt{SSE/L_{yy}}} \\ &= \frac{\sqrt{(n-2)}r}{\sqrt{1-r^2}} \end{aligned} \tag{5.99} \]
一元场合中还有式(5.71)的关系:\(t^2=F\)
此时可根据\(t \sim t(n-2)\)的显著性检验,原假设为\(\rho=0\)。
5.10.2 样本偏相关系数
简单样本相关系数度量了两个变量间的相关性。但在多元相关分析中,由于受到其他变量的影响,简单样本相关系数并不能反映两个变量间纯粹的相关性,需要控制其他变量的影响,对此引入样本偏相关系数。
- 自变量间的样本偏相关系数
在样本相关阵r中,记\(\Delta_{ij}\)为r的第i行第i列元素的代数余子式,以\(x_1\)与\(x_2\)为例,定义样本偏相关系数为
\[ r_{12;3,...p}=\frac{-\Delta_{12}}{\sqrt{\Delta_{11}\Delta_{22}}} \tag{5.100} \]
- 因变量与自变量的样本偏相关系数
记除\(x_1\)之外的自变量为\(x_{(-1)}\),\(e_{x_1|x_{(-1)}}\)和\(e_{y|x_{(-1)}}\)分别表示\(x_1\)和\(y\)对\(x_{(-1)}\)回归的残差,定义\(y\)与\(x_1\)的样本偏相关系数为
\[ r_{y1;2,...p}=\frac{Cov(e_{x_1|x_{(-1)}},e_{y|x_{(-1)}})}{\sqrt{Var(e_{x_1|x_{(-1)}})Var(e_{y|x_{(-1)}})}}=Cor(e_{x_1|x_{(-1)}},e_{y|x_{(-1)}}) \tag{5.101} \]
控制其他变量的影响就是考虑这些变量回归后的残差
- 因变量与自变量的样本偏决定系数
定义\(y\)与\(x_1\)的样本偏决定系数为
\[ r_{y1;2,...p}^2 = \frac{SSE_{(-1)}-SSE}{SSE_{(-1)}} \tag{5.102} \]
若把\(SSE_{(-1)}\)看成\(SST\),则形式同\(R^2\)
样本偏决定系数反映了引入该新自变量后,因变量剩余变差的相对减少了。
则\(y\)与\(x_1\)的样本偏相关系数也可为
\[ r_{y1;2,...p} = \sqrt{ \frac{SSE_{(-1)}-SSE}{SSE_{(-1)}}} \tag{5.103} \]
正如样本相关系数与F统计量有关系,这里的样本偏相关系数(或者说样本偏决定系数)也与偏F统计量有关系。
同式(5.98),若把\(SSE_{(-1)}\)看成\(SST\),则同理有
\(SST=\sum_{i=1}^n (y_i-\bar y)^2\)又何尝不是均值模型的残差平方和呢?
\[ \begin{aligned} F_1&=\frac{(n-p-1)r_{y1;2,...p}^2}{1-r_{y1;2,...p}^2} \\ r_{y1;2,...p}^2 &= \frac{F_1}{F_1+n-p-1} \end{aligned} \tag{5.104} \]