5.13 变量选择与正则化

5.13.1 冗余与遗漏

对于某一实际问题涉及到的因变量Y,我们搜寻了m个可能与其相关的自变量。称包含这m个自变量的回归模型为全模型。若只从这m个自变量中选取p个自变量进行回归,则称对应的模型为选模型

若真实模型是选模型,而用了全模型进行回归,则在模型中引入了不必要的变量,即变量冗余

若真实模型是全模型,而用了选模型进行回归,则在模型中遗漏了关键变量,即变量遗漏

5.13.2 变量选择的传统方法

5.13.2.1 自变量选择准则

可根据如下准则进行模型选择。

  1. 调整的\(R^2\)

  2. \(C_p\)准则

    \[ C_p=\frac{1}{n}(SSE_p+2p\frac{SSE_m}{n-m-1}) \tag{5.116} \]

    其中\(SSE_m\)表示全模型的残差平方和,\(SSE_p\)表示选模型的残差平方和。

    这只是\(C_p\)准则的一种定义,还有另一种定义

  3. AIC

    \[ AIC=-2\ln L(\hat \theta;X)+2p \tag{5.117} \]

    其中\(L(\cdot)\)表示模型的似然函数,\(\hat \theta\)表示参数\(\theta\)的极大似然估计(在多元线性回归模型中就是\(\hat \beta\)\(\hat \sigma^2\)),\(X\)表示样本。

  4. BIC

    \[ BIC=-2\ln L(\hat \theta;X)+p \ln n \tag{5.118} \]

    BIC准则相较于AIC准则增强了对变量个数的惩罚,并新增了对样本数的惩罚。

5.13.2.2 变量选择方法

  1. 最优子集法

    对自变量的所有组合(共\(2^m-1\)种组合)分别拟合回归方程,根据自变量选择准则从中挑选最优模型。

    费时

  2. 向前回归法

    考虑偏F统计量,模型的变量从少到多,每次将偏F统计量最大的且显著的那个变量纳入到模型中,直到没有可引入的变量为止。

    当然也可选择其他自变量选择准则

  3. 向后回归法

    考虑偏F统计量,模型的变量从多到少,每次将偏F统计量最小的且不显著的那个变量从模型中剔除,直到没有剔除的变量为止。

  4. 向前向后法

    向前法或者向后法都是“只进不出”或者“只出不进”,没有考虑变量间的联合效应。而向前向后法综合了这两种方法,每引入一个自变量时对所有已纳入到模型中的自变量进行逐个检验,考察是否要剔除变量,直至既无显著的自变量引入模型,也无不显著的自变量从回归模型中剔除为止。

5.13.3 变量选择的正则化方法

在模型估计时纳入正则项(惩罚项),不同的惩罚项有不同功能与作用。

详见变量选择与惩罚函数