5.7 预测

5.7.1 预测因变量新值的均值

5.7.1.1 一元场合

回顾式(5.2),注意我们的线性回归模型是对\(E(y|x)\),简记为\(E(y)\),即对因变量的条件均值进行回归。因此,给定自变量\(x_0\),对\(E(y)\)的一个自然的点估计就是

\[ \hat E(y_0)=\hat y_0=\hat \beta_0 + \hat \beta_1 x_0 \tag{5.83} \]

根据式(5.29),可知

\[ \hat y_0 = \hat \beta_0 + \hat \beta_1x_0 \sim N(\beta_0+\beta_1 x_0, (\frac{1}{n}+\frac{(x_0-\bar x)^2}{L_{xx}})\sigma^2) \tag{5.84} \]

构造枢轴量

\[ \frac{\hat y_0 - E(y_0)}{\sqrt{\hat \sigma^2(\frac{1}{n}+\frac{(x_0-\bar x)^2}{L_{xx}})}} \sim t(n-2) \tag{5.85} \]

\(E(y_0)\)的区间估计为\(\hat y_0 \pm t_{\alpha/2}(n-2)\sqrt{\hat \sigma^2(\frac{1}{n}+\frac{(x_0-\bar x)^2}{L_{xx}})}\)

5.7.1.2 多元场合

同样,一个自然的点估计就是\(\hat y_0\)

在正态假设下,有

\[ \begin{gather} \hat y_0 = x_0'(X'X)^{-1}X'Y \sim N(x_0'\beta, \sigma^2x_0'(X'X)^{-1}x_0) \\ \hat y_0-E(y_0) \sim N(0, \sigma^2x_0'(X'X)^{-1}x_0) \\ t=\frac{\hat y_0 -E(y_0)}{\sqrt{\hat \sigma^2x_0'(X'X)^{-1}x_0}} \sim t(n-p-1) \\ \hat y_0 \pm t_{\alpha/2}(n-p-1)\sqrt{\hat \sigma^2x_0'(X'X)^{-1}x_0} \end{gather} \tag{5.86} \]

5.7.2 预测因变量的新值

5.7.2.1 一元场合

因变量的新值为\(y_0\),相较于因变量的均值\(E(y_0)\),我们需要考虑随机扰动项的影响,即\(y_0=E(y_0)+\varepsilon\)

\(y_0\)的点估计依旧是\(\hat y_0\)

\(y_0\)的区间估计则先构造出枢轴量,有

\[ y_0 - \hat y_0 \sim N(0,(1+\frac{1}{n}+\frac{(x_0-\bar x)^2}{L_{xx}})\sigma^2) \tag{5.87} \]

其中方差里的“1”就是纳入了随机扰动项的影响。同样用\(\hat \sigma^2\)来估计\(\sigma^2\),根据t分布得到区间估计为\(\hat y_0 \pm t_{\alpha/2}(n-2)\sqrt{\hat \sigma^2(1+\frac{1}{n}+\frac{(x_0-\bar x)^2}{L_{xx}})}\)

5.7.2.2 多元场合

同样,点估计为\(\hat y_0\)

在正态性假设下,有

\[ \begin{gather} \hat y_0 = x_0'(X'X)^{-1}X'Y \sim N(x_0'\beta, \sigma^2x_0'(X'X)^{-1}x_0) \\ y_0-\hat y_0 \sim N(0, \sigma^2(1+x_0'(X'X)^{-1}x_0)) \\ t=\frac{y_0-\hat y_0}{\sqrt{\hat \sigma^2(1+x_0'(X'X)^{-1}x_0})} \sim t(n-p-1) \\ \hat y_0 \pm t_{\alpha/2}(n-p-1)\sqrt{\hat \sigma^2(1+x_0'(X'X)^{-1}x_0)} \end{gather} \tag{5.88} \]