5.13 变量选择与正则化
5.13.1 冗余与遗漏
对于某一实际问题涉及到的因变量Y,我们搜寻了m个可能与其相关的自变量。称包含这m个自变量的回归模型为全模型。若只从这m个自变量中选取p个自变量进行回归,则称对应的模型为选模型。
若真实模型是选模型,而用了全模型进行回归,则在模型中引入了不必要的变量,即变量冗余。
若真实模型是全模型,而用了选模型进行回归,则在模型中遗漏了关键变量,即变量遗漏。
5.13.2 变量选择的传统方法
5.13.2.1 自变量选择准则
可根据如下准则进行模型选择。
调整的\(R^2\)
\(C_p\)准则
\[ C_p=\frac{1}{n}(SSE_p+2p\frac{SSE_m}{n-m-1}) \tag{5.116} \]
其中\(SSE_m\)表示全模型的残差平方和,\(SSE_p\)表示选模型的残差平方和。
这只是\(C_p\)准则的一种定义,还有另一种定义
AIC
\[ AIC=-2\ln L(\hat \theta;X)+2p \tag{5.117} \]
其中\(L(\cdot)\)表示模型的似然函数,\(\hat \theta\)表示参数\(\theta\)的极大似然估计(在多元线性回归模型中就是\(\hat \beta\)和\(\hat \sigma^2\)),\(X\)表示样本。
BIC
\[ BIC=-2\ln L(\hat \theta;X)+p \ln n \tag{5.118} \]
BIC准则相较于AIC准则增强了对变量个数的惩罚,并新增了对样本数的惩罚。
5.13.2.2 变量选择方法
最优子集法
对自变量的所有组合(共\(2^m-1\)种组合)分别拟合回归方程,根据自变量选择准则从中挑选最优模型。
费时
向前回归法
考虑偏F统计量,模型的变量从少到多,每次将偏F统计量最大的且显著的那个变量纳入到模型中,直到没有可引入的变量为止。
当然也可选择其他自变量选择准则
向后回归法
考虑偏F统计量,模型的变量从多到少,每次将偏F统计量最小的且不显著的那个变量从模型中剔除,直到没有剔除的变量为止。
向前向后法
向前法或者向后法都是“只进不出”或者“只出不进”,没有考虑变量间的联合效应。而向前向后法综合了这两种方法,每引入一个自变量时对所有已纳入到模型中的自变量进行逐个检验,考察是否要剔除变量,直至既无显著的自变量引入模型,也无不显著的自变量从回归模型中剔除为止。