6.3 线性回归模型

6.3.1 一元线性回归模型

\[ \left\{ \begin{array}{c} y=\beta_0+\beta_1x+\varepsilon\\ E(\varepsilon|x)=0\\ Var(\varepsilon|x)=\sigma^2 \end{array} \right. \tag{6.1} \]

等价于

\[ \left\{ \begin{array}{c} E(y|x)=\beta_0+\beta_1x\\ Var(y|x)=\sigma^2 \end{array} \right. \tag{6.2} \]

习惯上将\(E(y|x)\)简记为\(E(y)\)，并称\(E(y|x)=\beta_0+\beta_1x\)为总体回归方程。

其中待估参数为\(\beta_0\)、\(\beta_1\)和\(\sigma^2\)。

结合假定，可知\(y\sim~N(\beta_0+\beta_1x,\sigma^2)\)。

为什么考虑y的条件期望？

由于\(\varepsilon\)的存在，我们无法直接估计出参数\(\beta_0\)和\(\beta_1\)。结合零均值的假定，我们可以对模型左右两边取期望来消掉\(\varepsilon\)的影响。同时需要注意的是，该期望是条件期望，我们更关注当x取固定值时y的均值。
如果从最优化的角度进行思考，假设对y的任意预测为\(f(x)\)，y的条件期望为\(g(x)=E(y|x)\)，则g(x)是y的最佳预测。

\[ \begin{align} E(y-f(x))^2&=E(y-g(x)+g(x)-f(x))^2\\ &=E(y-g(x))^2+E(g(x)-f(x))^2+2E[(y-g(x))(g(x)-f(x))]\\ &=E(y-g(x))^2+E(g(x)-f(x))^2\\ &\geq E(y-g(x))^2 \end{align} \tag{6.3} \]

拓展：分位数回归

一般的线性回归都是关注y条件均值，但有些时候我们可以对y的分位数进行回归，即分位数回归。分位数回归相较于均值回归能够获取更多的关于y的分布的信息，例如在保险行业，保险公司可以通过分位数回归来理解不同风险水平下的潜在损失。

上述都是针对总体的理论模型，而对于样本数据\((x_i,y_i)\)，则有:

\[ y_i=\hat y_i + \hat \varepsilon=\hat \beta_0+ \hat \beta_1x_i+e_i \tag{6.4} \]

\[ \hat y_i=\hat \beta_0+ \hat \beta_1x_i \tag{6.5} \]

其中式(6.4)为样本回归模型，式(6.5)为样本回归方程（也称经验回归方程），\(\hat y\)和\(e\)（残差）分别是对\(E(y|x)\)和\(\varepsilon\)的估计。

无论总体还是样本，带随机扰动项或者残差的叫“回归模型”，不带的叫“回归方程”或“回归函数”。

6.3.2 多元线性回归模型

\[ \left\{ \begin{array}{c} y=\beta_0+\beta_1x_1+...+\beta_px_p+\varepsilon\\ E(\varepsilon|x)=0\\ Var(\varepsilon|x)=\sigma^2 \end{array} \right. \tag{6.6} \]

等价于

\[ \left\{ \begin{array}{c} E(y|x)=\beta_0+\beta_1x+...+\beta_px_p\\ Var(y|x)=\sigma^2 \end{array} \right. \tag{6.7} \]

其中待估参数为\(\beta_0\)、\(\beta_1\)、…、\(\beta_p\)和\(\sigma^2\)。

矩阵表达式为：

\[ \left\{ \begin{array}{ll} Y=X\beta+\varepsilon\\ E(\varepsilon)=0\\ Var(\varepsilon)=\sigma^2I_n \end{array} \right. \tag{6.8} \]

其中

\[ Y= \begin{pmatrix} y_1\\ y_2\\ \vdots\\ y_n \end{pmatrix} \,, X= \begin{pmatrix} 1 & x_{11} \cdots x_{1p}\\ 1 & x_{21} \cdots x_{2p}\\ \vdots\\ 1 & x_{n1} \cdots x_{np} \end{pmatrix} \,, \beta= \begin{pmatrix} \beta_1\\ \beta_2\\ \vdots\\ \beta_n \end{pmatrix} \varepsilon= \begin{pmatrix} \varepsilon_1\\ \varepsilon_2\\ \vdots\\ \varepsilon_n \end{pmatrix} \tag{6.9} \]

此时\(Y \sim N(X\beta,\sigma^2I_n)\)