8.2 参数估计
这里主要对右删失数据进行讨论,以此来对第6.1.3节中的函数进行估计。因此,数据结构为\((T,\delta)\),并假设各个对象的删失时间与其time to event无关。
假如有\(n\)个观测样本,并且允许重复数据(ties)的出现,那么有\(D\)个不同的time to event\(t_1 \lt t_2 \lt \cdots \lt t_D\)。在\(t_i\)上有\(d_i\)个\(\delta=1\)的个体,并且此时还有\(Y_i=\sum_{j=1}^nI(X_j \geq t_i)=|R_i|\)个个体存在,则此时的风险函数可估计为\(b_i(x)=d_i/Y_i\)。
\(R_i\)表示\(t_i\)时刻的风险集合,即在时刻\(t_i\)时刻还存活的个体
例子如下所示
|
|
\(t_1=2;\; d_1=2; \; R(t_1)=\{a,e,f,c,d,b\}; \; Y_1=6\)
\(t_2=3;\; d_2=1; \; R(t_2)=\{f,c,d,b\}; \; Y_2=4\)
\(t_3=4;\; d_3=1; \; R(t_3)=\{d,b\}; \; Y_3=2\)
8.2.1 KM估计
Kaplan和Meier提出了KM估计,也称Product-Limit estimator。
根据式(8.13),KM估计给出了生存函数的估计
\[ \hat S(t)=\begin{cases} 1, & \textrm{if} \; t \lt t_1 \\ \prod_{t_i \leq t}[1-\frac{d_i}{y_i}], & \textrm{if} \; t_1 \leq t \end{cases} \tag{8.19} \]
注意到,当最大的观测值是完整生存时间时,\(\hat S(t)=0\);当最大的观测值是右删失时,\(\hat S(t)\)则为一个常数,此时就很难定义取值大于该点时对应的生存函数。
对此,当\(t \gt t_{max}\)时,有如下三种备选方法:
\(\hat S(t)=0\)
\(\hat S(t)=\hat S(t_{max})\)
\(\hat S(t)=\exp\{\frac{t\ln[\hat S(t_{max})]}{t_{max}}\}\)
第三种方法对应的生存函数是衰减的并趋于零
\(\hat S(t)\)的方差估计为
\[ \hat{V}[\hat S(t)]=\{\hat S(t)\}^2 \sum_{t_i \leq t} \frac{d_i}{Y_i(Y_i-d_i)} \tag{8.20} \]
可以直接记
考虑式(8.9),有
\[ \hat H(t)=-\ln [\hat S(t)] \tag{8.21} \]
在计算\(\hat V[\hat H(t)]\)前介绍\(\delta\)方法:
已知:\(\hat \beta - \beta_0 \stackrel{d}{\rightarrow} N(0, V(\hat \beta))\),若\(f(x)\)是连续的且一阶导不为0,求\(f(\hat \beta)-f(\beta_0)\)的渐近分布。
首先对\(f(\hat \beta)\)进行一阶泰勒展开
\[ \begin{aligned} f(\hat \beta) &\approx f(\beta_0)+f'(\beta_0)(\hat \beta-\beta_0) \\ f(\hat \beta)-f(\beta_0) & \approx f'(\beta_0)(\hat \beta-\beta_0) \end{aligned} \tag{8.22} \]
则
\[ \begin{aligned} V(f(\hat \beta)-f(\beta_0))&\approx V(f'(\beta_0)(\hat \beta-\beta_0)) \\ &\approx \{f'(\beta_0)\}^2V(\hat \beta) \end{aligned} \tag{8.23} \]
故
\[ f(\hat \beta)-f(\beta_0) \stackrel{d}{\rightarrow} N(0, \{f'(\beta_0)\}^2V(\hat \beta)) \tag{8.24} \]
则
\[ \hat V(\hat H(t))=\frac{1}{\{\hat S(t)\}^2}\hat{V}[\hat S(t)]= \sum_{t_i \leq t} \frac{d_i}{Y_i(Y_i-d_i)} \tag{8.25} \]
8.2.2 NA估计
NA估计由Nelson和Aalen提出,该方法首先给出了累积风险函数的估计
\[ \tilde H(t)=\begin{cases} 0, & \textrm{if} \; t \lt t_1 \\ \sum_{t_i \leq t} \frac{d_i}{Y_i}, &\textrm{if} \; t_1 \leq t \end{cases} \tag{8.26} \]
\(\hat b(t_i)=d_i/Y_i\)
给出该估计量的方差
\[ \tilde V(\tilde H(t))=\sum_{t_i \leq t} \frac{d_i}{Y_i^2} \tag{8.27} \]
根据式(8.10),有
\[ \tilde S(t)=\exp[- \tilde H(t)] \tag{8.28} \]
由\(\delta\)方法可知
\[ \tilde V(\tilde S(t))=\{-\exp[-\tilde H(t)]\}^2 \tilde V(\tilde H(t))=\{\tilde S(t)\}^2\sum_{t_i \leq t}\frac{d_i}{Y_i^2} \tag{8.29} \]