5.7 预测
5.7.1 预测因变量新值的均值
5.7.1.1 一元场合
回顾式(5.2),注意我们的线性回归模型是对\(E(y|x)\),简记为\(E(y)\),即对因变量的条件均值进行回归。因此,给定自变量\(x_0\),对\(E(y)\)的一个自然的点估计就是
\[ \hat E(y_0)=\hat y_0=\hat \beta_0 + \hat \beta_1 x_0 \tag{5.83} \]
根据式(5.29),可知
\[ \hat y_0 = \hat \beta_0 + \hat \beta_1x_0 \sim N(\beta_0+\beta_1 x_0, (\frac{1}{n}+\frac{(x_0-\bar x)^2}{L_{xx}})\sigma^2) \tag{5.84} \]
构造枢轴量
\[ \frac{\hat y_0 - E(y_0)}{\sqrt{\hat \sigma^2(\frac{1}{n}+\frac{(x_0-\bar x)^2}{L_{xx}})}} \sim t(n-2) \tag{5.85} \]
故\(E(y_0)\)的区间估计为\(\hat y_0 \pm t_{\alpha/2}(n-2)\sqrt{\hat \sigma^2(\frac{1}{n}+\frac{(x_0-\bar x)^2}{L_{xx}})}\)。
5.7.1.2 多元场合
同样,一个自然的点估计就是\(\hat y_0\)。
在正态假设下,有
\[ \begin{gather} \hat y_0 = x_0'(X'X)^{-1}X'Y \sim N(x_0'\beta, \sigma^2x_0'(X'X)^{-1}x_0) \\ \hat y_0-E(y_0) \sim N(0, \sigma^2x_0'(X'X)^{-1}x_0) \\ t=\frac{\hat y_0 -E(y_0)}{\sqrt{\hat \sigma^2x_0'(X'X)^{-1}x_0}} \sim t(n-p-1) \\ \hat y_0 \pm t_{\alpha/2}(n-p-1)\sqrt{\hat \sigma^2x_0'(X'X)^{-1}x_0} \end{gather} \tag{5.86} \]
5.7.2 预测因变量的新值
5.7.2.1 一元场合
因变量的新值为\(y_0\),相较于因变量的均值\(E(y_0)\),我们需要考虑随机扰动项的影响,即\(y_0=E(y_0)+\varepsilon\)。
对\(y_0\)的点估计依旧是\(\hat y_0\)。
对\(y_0\)的区间估计则先构造出枢轴量,有
\[ y_0 - \hat y_0 \sim N(0,(1+\frac{1}{n}+\frac{(x_0-\bar x)^2}{L_{xx}})\sigma^2) \tag{5.87} \]
其中方差里的“1”就是纳入了随机扰动项的影响。同样用\(\hat \sigma^2\)来估计\(\sigma^2\),根据t分布得到区间估计为\(\hat y_0 \pm t_{\alpha/2}(n-2)\sqrt{\hat \sigma^2(1+\frac{1}{n}+\frac{(x_0-\bar x)^2}{L_{xx}})}\)。
5.7.2.2 多元场合
同样,点估计为\(\hat y_0\)。
在正态性假设下,有
\[ \begin{gather} \hat y_0 = x_0'(X'X)^{-1}X'Y \sim N(x_0'\beta, \sigma^2x_0'(X'X)^{-1}x_0) \\ y_0-\hat y_0 \sim N(0, \sigma^2(1+x_0'(X'X)^{-1}x_0)) \\ t=\frac{y_0-\hat y_0}{\sqrt{\hat \sigma^2(1+x_0'(X'X)^{-1}x_0})} \sim t(n-p-1) \\ \hat y_0 \pm t_{\alpha/2}(n-p-1)\sqrt{\hat \sigma^2(1+x_0'(X'X)^{-1}x_0)} \end{gather} \tag{5.88} \]