5.6 显著性检验

由于显著性检验依赖于最小二乘估计的分布,在前述内容中已经说明最小二乘估计服从正态分布,因此该部分内容严重依赖于随机扰动项的正态性、同方差、无自相关假定。

同时,在显著性检验中涉及t检验和F检验,这就依赖如下条件

SSEσ2χ2(np1)

证:

SSEσ2=eeσ2=ε(IH)εσ2=εσ(IH)εσ

已知εN(0,σ2I),则εσN(0,I)

由于式(5.64)为二次型,且矩阵(IH)为秩为np1的对称幂等矩阵,故存在某种正交变换使得式(5.64)的二次型化为相互独立的变量平方和,也就是卡方分布,其中自由度就是矩阵(IH)的秩。 同时,根据式(5.62)可知ˆβSSE/σ2独立。

5.6.1 区间估计

5.6.1.1 一元场合

根据式(5.45)已知ˆβ1的分布,由于σ2未知,因此采用式(5.16)ˆσ2进行替代,进而构造t统计量进行区间估计。

t=ˆβ1β1ˆσ2/Lxxt(n2)P(|ˆβ1β1ˆσ2/Lxx|<tα/2(n2))=1α(ˆβ1tα/2(n2)ˆσ2Lxx,ˆβ1+tα/2(n2)ˆσ2Lxx)

我们在乎自变量是否能解释因变量的变动,因此ˆβ0的区间估计,包括下面的显著性检验都不对ˆβ0进行讨论

5.6.1.2 多元场合

回顾式(5.46),可知ˆβjN(βj,σ2cjj),其中cjj表示(XX)1的第j+1个主对角线元素,故有

t=ˆβjβjˆσ2cjjt(np1)P(|ˆβjβjˆσ2cjj|<tα/2(np1))=1α(ˆβjtα/2(np1)ˆσ2cjj,ˆβj+tα/2(np1)ˆσ2cjj)

挖坑,回归系数向量的置信域(置信椭球)

5.6.2 t检验

5.6.2.1 一元场合

t检验用于检验单个回归系数是否显著。

对于假设检验问题

H0:β1=0vsH1:β10

在原假设下有ˆβ1N(0,σ2/Lxx),同样用式(5.16)ˆσ2替代σ2,进而构造t统计量进行显著性检验。

t=ˆβ1ˆσ2/Lxx

在原假设下tt(n2),当|t|tα/2(n2)时拒绝原假设。

5.6.2.2 多元场合

对于假设检验问题

H0:βj=0vsH1:βj0

在原假设下有ˆβjN(0,σ2cjj),故构造检验统计量

tj=ˆβjˆσ2cjj

在原假设下tjt(np1),当|tj|tα/2(np1)时拒绝原假设。

考虑更一般的假设检验问题

H0:cβ=0vsH1:cβ0

cˆβN(cβ,σ2c(XX)1c),故

t=cˆβˆσ2c(XX)1c

原假设下有tt(np1),当|t|t(np1)时拒绝原假设

5.6.3 F检验

5.6.3.1 一元场合

F检验用于检验整个回归方程是否显著,也就是说检验因变量是否与至少一个自变量存在线性关系。特别的,一元场合只有一个自变量,因此F检验也就相当于检验β1是否为0。

对于假设检验问题

H0:β1=0vsH1:β10

构造F统计量

F=SSR/1SSE/(n2)

其中SST=ni=1(yiˉy)2,SSR=ni=1(ˆyiˉy)2,SSE=ni=1(yiˆyi)2

在原假设下FF(1,n2),当FFα(1,n2)时,拒绝原假设。

注意到,在一元线性回归中,F统计量与t统计量有如下关系式

t2=(ˆβ1ˆσ2/Lxx)2=ˆβ21LxxSSE/(n2))=SSRSSE/(n2)=F

其中

SSR=ni=1(ˆyiˉy)2=ni=1(ˆβ0+ˆβ1xiˉy)2=ni=1(ˉyˆβ1ˉx+ˆβ1xiˉy)2=ni=1ˆβ21(xiˉx)2=ˆβ21Lxx

平方和分解式
SST=ni=1(yiˉy)2=ni=1(yiˆyi+ˆyiˉy)2=ni=1(ˆyiˉy)+ni=1(yiˆyi)2+2ni=1(yiˆyi)(ˆyiˉy)=SSR+SSE+2ni=1(yiˆyi)ˆyi2ˉyni=1(yiˆyi)=SSR+SSE+2ni=1ei(ˆβ0+ˆβ1xi)2ˉyni=1ei=SSR+SSE+2ˆβ0ni=1ei+2ˆβ1ni=1eixi=SSR+SSE
注意式(5.12)表明ni=1ei=0,ni=1eixi=0
关于式(5.70)的原理,可参考1999年王松桂《线性统计模型:线性回归与方差分析》中的定理4.1.1,该定理包括
(a) RSS/σ2χ2np
(b) 若约束条件Aβ=b成立,则(RSSHRSS/σ2)χ2m
(c) RSSRSSHRSS相互独立
(d) 当约束条件Aβ=b成立,则
FH=(RSSHRSS)/mRSS/(np)Fm,np
其中RSSH表示受约束的最小二乘估计对应的残差平方和。

5.6.3.2 多元场合

整个回归方程的显著性检验同样采用F检验进行。

对于假设检验问题

H0:β1=...=βp=0vsH1:βi0,i{1,...,p}

构造F统计量

F=SSR/pSSE/(np1)

在原假设下,FF(p,np1),当FFα(p,np1)时即可拒绝原假设。

下面对F检验进行推广。

考虑部分回归系数的显著性检验问题,不妨令β2β中假设系数为0的那部分系数,对应的自变量有p个,记为X2。剩余的系数和自变量个数为β1pp个,自变量记为X1

更一般的线性假设问题及证明可参考1999年王松桂《线性统计模型:线性回归与方差分析》中的4.1节,其中的线性假设为Aβ=b

对于假设检验问题

H0:β2=0vsH1:β20

对于同一样本,无约束回归与有约束回归对应的SST都是一致的。而在约束条件β2=0下,对应的残差平方和SSE必定大于等于无约束条件下的残差平方和SSE,即SSESSE。注意到有SSRSSR=SSESSE,结合式(5.63),在原假设下有

F=(SSESSE)/(pp)SSE/(np1)F(pp,np1)

SSE/σ2χ2(np1)

SSE/σ2χ2(np1)

(SSESSE)/σ2χ2(pp)

因此,该检验统计量通过度量SSESSE的差异大小来检验约束条件是否显著存在。若约束条件真的存在,则SSESSE之间的差异自然就小;若约束条件不存在,则SSESSE之间的差异自然就大。


多元场合的平方和分解式的表达

SST=ni=1(yiˉy)2=ni=1[(11n)yi1njiyj]2=Y(I1n1n1n)YSSE=ni=1(yiˆyi)2=Y(IH)YSSR=SSTSSE=Y(H1n1n1n)Y

其中1n表示长度为n且元素均为1的向量。


5.6.4 偏F检验

在多元场合中,根据式(5.75)的启示,可以假设某一自变量对应的回归系数为0,根据约束前后残差平方和的差异大小来判断该自变量的重要性,称此检验为偏F检验

假设检验问题为

H0:βj=0vsH1:βj0

则检验统计量为

Fj=(SSE(j)SSE)/1SSE/(np1)

SSE(j)=Y(IH0)Y,H0=X0(X0X0)1X0,其中X0表示剔除变量xj后的设计矩阵

其中SSE(i)表示去掉第i个自变量后所拟合模型的残差平方和。在原假设下,由FiF(1,np1)。当FFα(1,np1)时拒绝原假设。

若约束前后残差平方和变化过大,说明该自变量较为重要,此时Fi的值会较大,倾向于拒绝原假设。

βj的t检验统计量与偏F检验统计量有如下关系

t2j=Fj

证:挖坑

5.6.5 样本决定系数

样本决定系数定义如下

R2=SSRSST=ni=1(ˆyiˉy)2ni=1(yiˉy)2

也称拟合优度、判定系数、确定系数。

R2反映了因变量的变异(SST)中可以由自变量解释(SSR)的比例.

关于R2这里推荐阅读统计之都的文章《为什么我不是R方的粉丝》

5.6.5.1 一元场合

在一元线性回归中,R2与样本相关系数具有如下关系

R2=SSRSST=ˆβ21LxxLyy=L2xyLxxLyy=r2

5.6.5.2 多元场合

在多元场合中,样本决定系数R2Cor(ˆY,Y)具有如下关系

Cor(ˆY,Y)=(ˆY1nˉy)(Y1nˉy)SSR×SST=(ˆY1nˉy)(ˆY+e1nˉy)SSR×SST=(ˆY1nˉy)(ˆY1nˉy)+(ˆY1nˉy)eSSR×SST=SSR+0SSR×SST=SSRSST=R2

eˆY正交,且ni=1ei=0

定义样本复相关系数为

R=R2=SSRSST

反映了因变量与一组自变量间的相关性

定义调整的R2

R2adj=1SSE/(np1)SST/(n1)=1n1np1(1R2)

普通R2会随着自变量的增加而单调增加,而调整的R2相较于普通R2多了对自变量个数的惩罚,因此可用于不同自变量个数下不同模型之间拟合效果的比较。