8.2 参数估计

这里主要对右删失数据进行讨论,以此来对第6.1.3节中的函数进行估计。因此,数据结构为\((T,\delta)\),并假设各个对象的删失时间与其time to event无关。

假如有\(n\)个观测样本,并且允许重复数据(ties)的出现,那么有\(D\)个不同的time to event\(t_1 \lt t_2 \lt \cdots \lt t_D\)。在\(t_i\)上有\(d_i\)\(\delta=1\)的个体,并且此时还有\(Y_i=\sum_{j=1}^nI(X_j \geq t_i)=|R_i|\)个个体存在,则此时的风险函数可估计为\(b_i(x)=d_i/Y_i\)

\(R_i\)表示\(t_i\)时刻的风险集合,即在时刻\(t_i\)时刻还存活的个体

例子如下所示

表 8.1: 原始数据
subject time delta
a 2 1
b 5 0
c 3 0
d 4 1
e 2 1
f 3 1
表 8.1: 排序后的数据
subject time delta
a 2 1
e 2 1
c 3 0
f 3 1
d 4 1
b 5 0
  • \(t_1=2;\; d_1=2; \; R(t_1)=\{a,e,f,c,d,b\}; \; Y_1=6\)

  • \(t_2=3;\; d_2=1; \; R(t_2)=\{f,c,d,b\}; \; Y_2=4\)

  • \(t_3=4;\; d_3=1; \; R(t_3)=\{d,b\}; \; Y_3=2\)

8.2.1 KM估计

Kaplan和Meier提出了KM估计,也称Product-Limit estimator。

根据式(8.13),KM估计给出了生存函数的估计

\[ \hat S(t)=\begin{cases} 1, & \textrm{if} \; t \lt t_1 \\ \prod_{t_i \leq t}[1-\frac{d_i}{y_i}], & \textrm{if} \; t_1 \leq t \end{cases} \tag{8.19} \]

注意到,当最大的观测值是完整生存时间时,\(\hat S(t)=0\);当最大的观测值是右删失时,\(\hat S(t)\)则为一个常数,此时就很难定义取值大于该点时对应的生存函数。

对此,当\(t \gt t_{max}\)时,有如下三种备选方法:

  • \(\hat S(t)=0\)

  • \(\hat S(t)=\hat S(t_{max})\)

  • \(\hat S(t)=\exp\{\frac{t\ln[\hat S(t_{max})]}{t_{max}}\}\)

第三种方法对应的生存函数是衰减的并趋于零

\(\hat S(t)\)的方差估计为

\[ \hat{V}[\hat S(t)]=\{\hat S(t)\}^2 \sum_{t_i \leq t} \frac{d_i}{Y_i(Y_i-d_i)} \tag{8.20} \]

可以直接记

考虑式(8.9),有

\[ \hat H(t)=-\ln [\hat S(t)] \tag{8.21} \]


在计算\(\hat V[\hat H(t)]\)前介绍\(\delta\)方法:

已知:\(\hat \beta - \beta_0 \stackrel{d}{\rightarrow} N(0, V(\hat \beta))\),若\(f(x)\)是连续的且一阶导不为0,求\(f(\hat \beta)-f(\beta_0)\)的渐近分布。

首先对\(f(\hat \beta)\)进行一阶泰勒展开

\[ \begin{aligned} f(\hat \beta) &\approx f(\beta_0)+f'(\beta_0)(\hat \beta-\beta_0) \\ f(\hat \beta)-f(\beta_0) & \approx f'(\beta_0)(\hat \beta-\beta_0) \end{aligned} \tag{8.22} \]

\[ \begin{aligned} V(f(\hat \beta)-f(\beta_0))&\approx V(f'(\beta_0)(\hat \beta-\beta_0)) \\ &\approx \{f'(\beta_0)\}^2V(\hat \beta) \end{aligned} \tag{8.23} \]

\[ f(\hat \beta)-f(\beta_0) \stackrel{d}{\rightarrow} N(0, \{f'(\beta_0)\}^2V(\hat \beta)) \tag{8.24} \]


\[ \hat V(\hat H(t))=\frac{1}{\{\hat S(t)\}^2}\hat{V}[\hat S(t)]= \sum_{t_i \leq t} \frac{d_i}{Y_i(Y_i-d_i)} \tag{8.25} \]

8.2.2 NA估计

NA估计由Nelson和Aalen提出,该方法首先给出了累积风险函数的估计

\[ \tilde H(t)=\begin{cases} 0, & \textrm{if} \; t \lt t_1 \\ \sum_{t_i \leq t} \frac{d_i}{Y_i}, &\textrm{if} \; t_1 \leq t \end{cases} \tag{8.26} \]

\(\hat b(t_i)=d_i/Y_i\)

给出该估计量的方差

\[ \tilde V(\tilde H(t))=\sum_{t_i \leq t} \frac{d_i}{Y_i^2} \tag{8.27} \]

根据式(8.10),有

\[ \tilde S(t)=\exp[- \tilde H(t)] \tag{8.28} \]

\(\delta\)方法可知

\[ \tilde V(\tilde S(t))=\{-\exp[-\tilde H(t)]\}^2 \tilde V(\tilde H(t))=\{\tilde S(t)\}^2\sum_{t_i \leq t}\frac{d_i}{Y_i^2} \tag{8.29} \]