5.3 线性回归模型

5.3.1 一元线性回归模型

\[ \left\{ \begin{array}{c} y=\beta_0+\beta_1x+\varepsilon\\ E(\varepsilon|x)=0\\ Var(\varepsilon|x)=\sigma^2 \end{array} \right. \tag{5.1} \]

等价于

\[ \left\{ \begin{array}{c} E(y|x)=\beta_0+\beta_1x\\ Var(y|x)=\sigma^2 \end{array} \right. \tag{5.2} \]

习惯上将\(E(y|x)\)简记为\(E(y)\),并称\(E(y|x)=\beta_0+\beta_1x\)为总体回归方程。

其中待估参数为\(\beta_0\)\(\beta_1\)\(\sigma^2\)

结合假定,可知\(y\sim~N(\beta_0+\beta_1x,\sigma^2)\)

为什么考虑y的条件期望?

  • 由于\(\varepsilon\)的存在,我们无法直接估计出参数\(\beta_0\)\(\beta_1\)。结合零均值的假定,我们可以对模型左右两边取期望来消掉\(\varepsilon\)的影响。同时需要注意的是,该期望是条件期望,我们更关注当x取固定值时y的均值。

  • 如果从最优化的角度进行思考,假设对y的任意预测为\(f(x)\),y的条件期望为\(g(x)=E(y|x)\),则g(x)是y的最佳预测。

    \[ \begin{align} E(y-f(x))^2&=E(y-g(x)+g(x)-f(x))^2\\ &=E(y-g(x))^2+E(g(x)-f(x))^2+2E[(y-g(x))(g(x)-f(x))]\\ &=E(y-g(x))^2+E(g(x)-f(x))^2\\ &\geq E(y-g(x))^2 \end{align} \tag{5.3} \]

拓展:分位数回归

一般的线性回归都是关注y条件均值,但有些时候我们可以对y的分位数进行回归,即分位数回归。分位数回归相较于均值回归能够获取更多的关于y的分布的信息,例如在保险行业,保险公司可以通过分位数回归来理解不同风险水平下的潜在损失。

上述都是针对总体的理论模型,而对于样本数据\((x_i,y_i)\),则有:

\[ y_i=\hat y_i + \hat \varepsilon=\hat \beta_0+ \hat \beta_1x_i+e_i \tag{5.4} \]

\[ \hat y_i=\hat \beta_0+ \hat \beta_1x_i \tag{5.5} \]

其中式(5.4)为样本回归模型,式(5.5)为样本回归方程(也称经验回归方程),\(\hat y\)\(e\)(残差)分别是对\(E(y|x)\)\(\varepsilon\)的估计。

无论总体还是样本,带随机扰动项或者残差的叫“回归模型”,不带的叫“回归方程”或“回归函数”。

5.3.2 多元线性回归模型

\[ \left\{ \begin{array}{c} y=\beta_0+\beta_1x_1+...+\beta_px_p+\varepsilon\\ E(\varepsilon|x)=0\\ Var(\varepsilon|x)=\sigma^2 \end{array} \right. \tag{5.6} \]

等价于

\[ \left\{ \begin{array}{c} E(y|x)=\beta_0+\beta_1x+...+\beta_px_p\\ Var(y|x)=\sigma^2 \end{array} \right. \tag{5.7} \]

其中待估参数为\(\beta_0\)\(\beta_1\)、…、\(\beta_p\)\(\sigma^2\)

矩阵表达式为:

\[ \left\{ \begin{array}{ll} Y=X\beta+\varepsilon\\ E(\varepsilon)=0\\ Var(\varepsilon)=\sigma^2I_n \end{array} \right. \tag{5.8} \]

其中

\[ Y= \begin{pmatrix} y_1\\ y_2\\ \vdots\\ y_n \end{pmatrix} \,, X= \begin{pmatrix} 1 & x_{11} \cdots x_{1p}\\ 1 & x_{21} \cdots x_{2p}\\ \vdots\\ 1 & x_{n1} \cdots x_{np} \end{pmatrix} \,, \beta= \begin{pmatrix} \beta_1\\ \beta_2\\ \vdots\\ \beta_n \end{pmatrix} \varepsilon= \begin{pmatrix} \varepsilon_1\\ \varepsilon_2\\ \vdots\\ \varepsilon_n \end{pmatrix} \tag{5.9} \]

此时\(Y \sim N(X\beta,\sigma^2I_n)\)