6.5 判别分析

6.5.1 距离判别

根据样品距离各个总体的远近来判断该样品属于哪个总体。记\(d(X,G_i)\)表示样品\(X\)到总体\(G_i\)的距离,则判别法则可表示为

\[ \delta(X) = \mathop{\arg\max}\limits_{i} \; d(X,G_i) \tag{6.63} \]

距离取马氏距离\(d(X,G_i)=(X-\mu)'\Sigma_i^{-1}(X-\mu)\),其中\(\Sigma_i\)表示总体\(G_i\)的协方差矩阵。

6.5.1.1 两总体且具有相同协差阵

当两总体\(\Sigma_1=\Sigma_2=\Sigma\)时,有

\[ \begin{aligned} &d(X,G_1)-d(X,G_2) \\ =& (X-\mu_1)'\Sigma^{-1}(X-\mu_1)-(X-\mu_2)'\Sigma^{-1}(X-\mu_2) \\ &= X'\Sigma^{-1}X-2X'\Sigma^{-1}\mu_1+\mu_1'\Sigma^{-1}\mu_1-(X'\Sigma^{-1}X-2X'\Sigma^{-1}\mu_2+\mu_2'\Sigma^{-1}\mu_2) \\ &= 2X'\Sigma^{-1}(\mu_2-\mu_1)+\mu_1'\Sigma^{-1}\mu_1-\mu_2'\Sigma^{-1}\mu_2 \\ &= 2X'\Sigma^{-1}(\mu_2-\mu_1)+(\mu_1+\mu_2)'\Sigma^{-1}(\mu_1-\mu_2) \\ &= -2(X-\frac{\mu_1+\mu_2}{2})'\Sigma^{-1}(\mu_1-\mu_2) \\ &= -2(X-\bar \mu)'a \\ &= -2a'(X-\bar \mu) \end{aligned} \tag{6.64} \]

其中\(\bar \mu=\frac{\mu_1+\mu_2}{2}\)\(a=\Sigma^{-1}(\mu_1-\mu_2)\),称a为判别系数向量

\(W(X)=a'(X-\bar \mu)\)为判别函数,则

\[ \begin{cases} X\in G_1, &\textrm{if } W(X) \geq 0 \\ X\in G_2, &\textrm{if } W(X) \lt 0 \end{cases} \tag{6.65} \]

进一步地,当已知总体分布时,不妨令\(G_1 \sim N_p(\mu_1, \Sigma)\),则当\(X \in G_1\)时,\(W(X)=a'(X-\bar \mu) \sim N(a'(\mu_1-\mu_2)/2,a'\Sigma a)\)

根据\(a=\Sigma^{-1}(\mu_1-\mu_2)\),又有\((\mu_1-\mu_2)=\Sigma\Sigma^{-1}(\mu_1-\mu_2)=\Sigma a\),故令\(\Delta^2=(\mu_1-\mu_2)'\Sigma^{-1} (\mu_1-\mu_2) = a'(\mu_1-\mu_2)=a'\Sigma a\)。则\(W(X) \sim N(\frac{1}{2}\Delta^2,\Delta^2)\),故误判概率为

\[ P(2|1) = P(W(X)<0|X\in G_1)=\Phi(-\frac{\Delta}{2}) \tag{6.66} \]

同理,对于\(G_2 \sim N_p(\mu_2, \Sigma)\),当\(X \in G_2\)时,有\(W(X)\sim N(-\frac{1}{2}\Delta^2,\Delta^2)\),误判概率为

\[ P(1|2)=P(W(X) \geq 0|X \in G_2)=1-\Phi(\frac{\Delta}{2})=\Phi(-\frac{\Delta}{2}) \tag{6.67} \]

在实践中,常用样本均值替代总体均值,样本方差替代总体方差,若假设等方差,则使用联合估计

若不能假定总体为正态分布时,可用样本的误判比例替代误判概率。

  1. 回代法

    用所有样本构造判别函数,再用该判别函数去判断样品所属总体,计算误判比例。

  2. 划分样本

    将所有样本划分为训练集和验证集,训练集用于构造判别函数,验证集用于计算误判比例。

  3. 交叉验证法

    分别从\(G_1\)\(G_2\)中各取出1个观测值,再用剩余观测值来构造判别函数,根据判别函数来对这两个观测值进行判断,记录判断结果。不断重复这个过程,最后计算误判比例。

6.5.1.2 其他情形

这里的其他情形是指多总体的或协差阵不相同的情况,核心思想还是找到最小的\(d(X,G_i)\)

例如多总体且协差阵相同时,有

\[ d(X,G_i)=X'\Sigma^{-1}X-2\mu_i' \Sigma^{-1} X+\mu_i'\Sigma^{-1} \mu_i=X'\Sigma^{-1}X-2(I_i'X+c_i) \tag{6.67} \]

其中\(I_i=\Sigma^{-1}\mu_i, \; c_i=-\frac{1}{2}\mu_i'\Sigma^{-1}\mu_i\)。可以看到,\(d(X,G_i)\)中的\(X'\Sigma^{-1}X\)是固定的,因此判别规则即为\(X\in G_i, \textrm{if }I_i'X+c_i=\max\limits_{j}(I'_jX+c_j)\)

6.5.2 贝叶斯判别

贝叶斯判别相较于距离判别法多考虑了先验信息,并根据样本信息得到后验概率分布,通过后验概率分布来进行统计推断。

假设有k个总体G,各个总体的概率密度函数为\(f_i(x)\),先验概率为\(q_i\),则根据样本得到的后验概率为

\[ P(G_i|x)=\frac{q_if_i(x)}{\sum_{j=1}^kq_jf_j(x)} \tag{6.68} \]

先验概率可根据历史资料或经验得到,或者用训练样本中各类所占比例作为先验概率,或者直接令各类先验概率均相等

6.5.2.1 最大后验概率法

根据样品计算得到的后验概率进行判别,取最大后验概率对应的总体作为样品的判别结果,即

\[ X \in G_i, \quad \textrm{if } P(G_i|x)=\max\limits_{j} P(G_j|x) \tag{6.69} \]

当总体为正态分布时,对应的密度函数为

\[ f_i(x)=(2\pi)^{-\frac{p}{2}}|\Sigma_i|^{-\frac{1}{2}}\exp(-\frac{1}{2}(x-\mu_i)'\Sigma_i^{-1}(x-\mu_i))=(2\pi)^{-\frac{p}{2}}|\Sigma_i|^{-\frac{1}{2}}\exp(-\frac{1}{2}d(x,G_i)) \tag{6.70} \]

则后验概率为

\[ \begin{aligned} P(G_i|x)&=\frac{q_i(2\pi)^{-\frac{p}{2}}|\Sigma_i|^{-\frac{1}{2}}\exp(-\frac{1}{2}d(x,G_i))}{\sum_{j=1}^k q_j(2\pi)^{-\frac{p}{2}}|\Sigma_j|^{-\frac{1}{2}}\exp(-\frac{1}{2}d(x,G_j))} \\ &= \frac{q_i|\Sigma_i|^{-\frac{1}{2}}\exp(-\frac{1}{2}d(x,G_i))}{\sum_{j=1}^k q_j |\Sigma_j|^{-\frac{1}{2}}\exp(-\frac{1}{2}d(x,G_j))} \\ &= \frac{\exp (-\frac{1}{2}d(x,G_i)+\ln q_i-\frac{1}{2}\ln |\Sigma_i|)}{\sum_{j=1}^k \exp (-\frac{1}{2}d(x,G_j)+\ln q_j-\frac{1}{2}\ln |\Sigma_j|)} \\ &= \frac{\exp [-\frac{1}{2}(d(x,G_i)-2\ln q_i+\ln |\Sigma_i|)]}{\sum_{j=1}^k \exp [-\frac{1}{2}(d(x,G_j)-2\ln q_j+\ln |\Sigma_j|)]} \end{aligned} \tag{6.71} \]

当假定先验概率均相等或者协差阵均相等时,对应的\(q\)\(|\Sigma|\)均可消掉。不妨令\(D(x,G_i)=d(x,G_i)+\ln|\Sigma_i|-2\ln q_i\),称其为广义平方距离,则正态假设下的最大后验概率法等价于

\[ X \in G_i, \quad \textrm{if } D(x,G_i)=\min\limits_{j} D(x,G_j) \tag{6.72} \]

注意\(\exp\)里面有负号,所以最大化就变成最小化了

6.5.2.2 最小期望误判代价法

以两总体的情形为例,沿用最大后验概率法中的记号,并引入误判损失,记为\(C(2|1),\,C(1|2)\),分别表示来自总体\(G_1\)却被误判为\(G_2\)的损失和来自总体\(G_2\)却被误判为\(G_1\)的损失。在判别规则下,\(R^p\)空间被划分为两个空间\(R_1\)\(R_2\),且$R_1 R_2=, ,R_1 R_2= $。

因此,若样品来自\(G_1\),则正确判别的概率为

\[ P(1|1)=P(x\in R_1 | x \in G_1)=\int_{R_1}f_1(x)dx \tag{6.73} \]

误判的概率为

\[ P(2|1)=P(x\in R_2 | x \in G_1)=\int_{R_2}f_1(x)dx \tag{6.74} \]

若样品来自\(G_2\)同理。

定义期望误判损失(Expected Cost of Misclassification)

\[ \begin{aligned} ECM&=E(C(l|i)) \\ &= C(2|1)P(x\in G_1, x\in R_2)+C(1|2)P(x\in G_2, x\in R_1) \\ &= C(2|1)P(x \in R_2 | x \in G_1)P(x \in G_1)+C(1|2)P(x \in R_1 | x \in G_2)P(x \in G_2) \\ &= C(2|1)P(2|1)q_1+C(1|2)P(1|2)q_2 \\ &= C(2|1)q_1\int_{R_2}f_1(x)dx+C(1|2)q_2\int_{R_1}f_2(x)dx \\ &= C(2|1)q_1\int_{R_2}f_1(x)dx+C(1|2)q_2(1-\int_{R_2}f_2(x)dx) \\ &= \int_{R_2} [C(2|1)q_1f_1(x)-C(1|2)q_2f_2(x)]dx + C(1|2)q_2 \\ &\propto \int_{R_2} [C(2|1)q_1f_1(x)-C(1|2)q_2f_2(x)]dx \\ &=1- \int_{R_1} [C(2|1)q_1f_1(x)-C(1|2)q_2f_2(x)]dx \end{aligned} \tag{6.75} \]

积分是曲线下的有向面积,当\(C(2|1)q_1f_1(x)-C(1|2)q_2f_2(x)\geq 0\)时,对其积分会变大,为了最小化ECM,应归为\(R_1\),同理,当\(C(2|1)q_1f_1(x)-C(1|2)q_2f_2(x)\lt 0\)时,应归为\(R_2\),即

\[ R_1=\{x:C(2|1)q_1f_1(x)\geq C(1|2)q_2f_2(x)\} \\ R_2=\{x:C(2|1)q_1f_1(x) \lt C(1|2)q_2f_2(x)\} \tag{6.76} \]

当总体为正态分布,且协差阵相等时,则

\[ \begin{aligned} C(2|1)q_1f_1(x) &\geq C(1|2)q_2f_2(x) \\ \frac{f_1(x)}{f_2(x)} &\geq \frac{C(1|2)q_2}{C(2|1)q_1} \\ \frac{\exp\{-\frac{1}{2}(x-\mu_1)'\Sigma^{-1}(x-\mu_1)\}}{\exp\{-\frac{1}{2}(x-\mu_2)'\Sigma^{-1}(x-\mu_2)\}} &\geq \frac{C(1|2)q_2}{C(2|1)q_1} \\ \exp\{-\frac{1}{2}[(x-\mu_1)'\Sigma^{-1}(x-\mu_1)-(x-\mu_2)'\Sigma^{-1}(x-\mu_2)]\} &\geq \frac{C(1|2)q_2}{C(2|1)q_1} \\ \exp\{-\frac{1}{2}[-2x'\Sigma^{-1}\mu_1+\mu_1'\Sigma^{-1}\mu_1+2x'\Sigma^{-1}\mu_2-\mu_2'\Sigma^{-1}\mu_2]\} &\geq \frac{C(1|2)q_2}{C(2|1)q_1} \\ \exp\{-\frac{1}{2}[-2x'\Sigma^{-1}(\mu_1-\mu_2)+(\mu_1+\mu_2)'\Sigma^{-1}(\mu_1-\mu_2)]\} &\geq \frac{C(1|2)q_2}{C(2|1)q_1} \\ \exp\{(x-\frac{\mu_1+\mu_2}{2})'\Sigma^{-1}(\mu_1-\mu_2) \} &\geq \frac{C(1|2)q_2}{C(2|1)q_1} \\ a'(x-\bar \mu) &\geq \ln{[\frac{C(1|2)q_2}{C(2|1)q_1}]} \end{aligned} \tag{6.77} \]

其中\(a=\Sigma^{-1}(\mu_1-\mu_2), \, \bar \mu =\frac{\mu_1+\mu_2}{2}\)。这等价于

\[ R_1=\{x:a'(x-\bar \mu) \geq \ln{[\frac{C(1|2)q_2}{C(2|1)q_1}]}\} \\ R_2=\{x:a'(x-\bar \mu) \lt \ln{[\frac{C(1|2)q_2}{C(2|1)q_1}]}\} \tag{6.78} \]

这里出现了距离判别中的\(a'(x-\bar \mu)\),当不考虑先验概率和误判代价时,距离判别和贝叶斯判别等价

上述假定了两总体是正态的,且协差阵相等的情形,倘若协差阵不相等时,同第4.3.1.2节一样,直接把正态密度函数的指数部分看成马氏距离\(d(x,G_i)\),并且保留\(|\Sigma_i|\),再进行讨论。

更一般的情形则是

\[ \begin{aligned} ECM&=E[C(l|i)] \\ &=\sum_{i=1}^k\sum_{l=1}^k C(l|i)P(x\in G_i,x \in R_l) \\ &= \sum_{i=1}^k\sum_{l=1}^k C(l|i)P(x \in R_l|x\in G_i)P(x\in G_i) \\ &= \sum_{i=1}^k\sum_{l=1}^k C(l|i)P(l|i)q_i \\ &= \sum_{l=1}^k\sum_{i=1}^k C(l|i)P(l|i)q_i \end{aligned} \tag{6.79} \]

最后两行虽然都是对所有情形的遍历,但内外求和顺序的不同代表着其思想也是不同。倒数第二行的外层是对\(i\)求和,内层是对\(l\)求和,其含义是先确定样品所属的总体,再考虑把该样品判给其他总体所带来的损失和。而最后一行的外层是对\(l\)求和,内层是对\(i\)求和,其含义是先确定把样品判别给某一总体,再考虑不同总体下的样品判别给该总体的损失和。显然,后者更符合我们判别的诉求,也就是把样品归类,并计算这样做的平均代价。因此让ECM最小的判别规则为

\[ R_t=\{x:\sum_{i\neq t}^k C(t|i)P(t|i)q_i = \min_{l} \sum_{i\neq l}^k C(l|i)P(l|i)q_i\} \tag{6.80} \]

考虑\(ECM=10=2+4+1+3\),这意味着现在有四个总体,把这个样品判别给这四个总体会分别带来2、4、1、3的平均损失,我们要最小化ECM,因此会选择平均损失为1的那个总体作为该样品的判别结果