第五節(jié) 生存分析
生存的直接含意是與死亡結(jié)局相對(duì)立的結(jié)局。但這里“生存”是一個(gè)廣義的概念,泛指二分類結(jié)局中的一種。如可以把發(fā)病/不發(fā)病這一二分類結(jié)局中的不發(fā)病看成為“生存”,發(fā)病看成為“死亡”。把疾病復(fù)發(fā)/緩解這一二分類結(jié)局中的緩解看成為“生存”,復(fù)發(fā)看成為“死亡”等。在生存分析中同時(shí)考慮兩個(gè)反應(yīng)變量:即生存時(shí)間的長(zhǎng)短和生存狀態(tài)。以臨床治療效果來(lái)說(shuō),在同一時(shí)間長(zhǎng)度情況下,生存概率大者治療效果為優(yōu)。
率這個(gè)詞的中文含義既包含概率的意思,也包含速率的意思。但在概率論中,概率、速率是相關(guān)而不相同的兩個(gè)概念。習(xí)慣上人們所稱謂的生存率,實(shí)際上是生存概率,它與前面介紹的以人年為分母的發(fā)病率在數(shù)學(xué)性質(zhì)上是不相同的。為避免混淆,在本文中一律用生存概率這一名詞,而不用通俗的生存率。
在生存研究中經(jīng)常有觀察對(duì)象中途退出研究的現(xiàn)象,即該觀察對(duì)象在尚未到達(dá)觀察終點(diǎn)即“死亡”前就終止了觀察。對(duì)于這類失訪的觀察對(duì)象所提供的時(shí)間信息是不完全的信息,因?yàn)槠湮吹竭_(dá)研究終點(diǎn)。在統(tǒng)計(jì)學(xué)上稱這類信息為“截尾”數(shù)據(jù)或“刪失”數(shù)據(jù)(censored data)。如何利用好這類“截尾”數(shù)據(jù)也是生存分析中所要考慮的問(wèn)題。
為了便于分析,通常假定截尾為無(wú)信息截尾(noninformative censoring)。也就是說(shuō),在整個(gè)研究期間,個(gè)體的截尾原因應(yīng)與事件的發(fā)生無(wú)關(guān),不能提供任何與模型參數(shù)相關(guān)的信息。遺憾的是,在大量的癌癥患者生存研究中,無(wú)信息截尾通常是不存在的。例如,在實(shí)際研究中,截尾的發(fā)生往往與腫瘤藥物的副作用、患者本身的身體狀況等密切相關(guān)。因此,需要對(duì)是否存在信息截尾進(jìn)行評(píng)估。然而,信息截尾的存在及其對(duì)生存分析的影響等評(píng)估相當(dāng)困難。
在各類截尾情形中,失訪是最有可能與事件發(fā)生存在著關(guān)聯(lián)性的截尾情形。這往往可以從專業(yè)的角度進(jìn)行定性判斷。一種較為客觀實(shí)用的評(píng)估信息截尾是否存在的方法是,考察整個(gè)研究期間的失訪比例(loss to follow-up)。如果失訪比例較大,或者,對(duì)每一類別分別作Kaplan-Meier生存曲線圖,觀察每個(gè)時(shí)段失訪比例。如果存在較大差異,那么,就有理由認(rèn)為失訪是信息截尾的。另一種較為簡(jiǎn)單實(shí)用的方法是,通過(guò)事后的截尾敏感性分析,如,最佳-最差情形法(best case-worst case scenario),來(lái)評(píng)估截尾對(duì)生存時(shí)間的影響大小。例如,第一次分析對(duì)截尾個(gè)體按照無(wú)信息截尾進(jìn)行處理,第二次分析直接將截尾個(gè)體的截尾時(shí)間當(dāng)作其生存時(shí)間進(jìn)行處理,比較這兩次分析的結(jié)果,如若存在著較大差異,就可以認(rèn)為截尾是有信息的。這種方法對(duì)于截尾較少的情形較為有效。需要注意的是,在這種情形下,信息截尾對(duì)生存分析的影響通常也較小。對(duì)于存在著較大截尾比例的研究,往往認(rèn)為該研究的質(zhì)量不高,其結(jié)果的可靠性與意義并不大。因此,在實(shí)際研究中,如何確保截尾盡可能少是癌癥患者生存研究的關(guān)鍵性問(wèn)題。
1. Kaplan-Meier乘積極限法[Kaplan-Meier method,product-limit(P-L)method]
當(dāng)資料不含有截尾觀察數(shù)據(jù)時(shí),生存概率的估計(jì)方法十分簡(jiǎn)單,即生存人數(shù)除以期初觀察人數(shù)。但當(dāng)資料含有截尾觀察數(shù)據(jù)時(shí),必須將截尾數(shù)據(jù)所提供的部分信息考慮進(jìn)來(lái)。Kaplan-Meier法是Kaplan和Meier于1958年首先提出,根據(jù)概率論中關(guān)于總概率是條件概率連乘積的原理來(lái)計(jì)算生存概率,是生存概率的一種非參數(shù)估計(jì)方法。適用于觀察例數(shù)較少的情況。
設(shè)有n個(gè)觀察時(shí)間t
i,i =1,…,n,第i個(gè)觀察若為完整時(shí)間則記為t
i,若為截尾時(shí)間則記為

t
1≤t
2≤…≤…≤t
m
如果
則從t
0開(kāi)始一直生存到時(shí)間t
k的生存概率P(t
k)的計(jì)算公式為:

又可將
P(t
k)看成為生存時(shí)間等于或大于t
k的概率。
生存率的標(biāo)準(zhǔn)誤計(jì)算公式為:

生存概率
P(t
k)的95%置信區(qū)間的計(jì)算公式為:
總生存概率P(tk)±1.96×se[P(tk)]
(11-65)
例11-14 48例急性淋巴細(xì)胞性白血病病人從治療開(kāi)始至死亡的時(shí)間(月)如下:
1,1,1,2,2,2,2,3,3,3,3,3,3,5,5,5,5,4,5,5,7,7,7,7,7,7,7,7,8,8,8,8,9,10,10,13
+,13,13,13,14,15,18,18,20,20,21
+,21,23
注:有+號(hào)者為截尾時(shí)間
其生存概率的計(jì)算過(guò)程列于表11-27中。
表11-27 48例急性淋巴細(xì)胞性白血病病人生存概率的Kaplan-Meier法估計(jì)結(jié)果
用Kaplan-Meier法估計(jì)的總生存概率是一種階梯形概率,用估計(jì)的總生存概率所繪制的圖形見(jiàn)圖11-13。
圖11-13 48例急性淋巴細(xì)胞性白血病病人生存概率的階梯曲線
從圖中可見(jiàn),在10個(gè)月之前的曲線下降的坡度較陡,反映死亡風(fēng)險(xiǎn)較大,10個(gè)月之后的曲線下降的坡度較平坦,反映死亡風(fēng)險(xiǎn)較小。50%生存概率在開(kāi)始治療后5~7個(gè)月之間。
2.人壽保險(xiǎn)法(actuarial method)
人壽保險(xiǎn)法又稱精算法,也是一種非參數(shù)生存概率估計(jì)方法,適用于觀察例數(shù)較多的情況。
用人壽保險(xiǎn)法計(jì)算生存概率的第一步是將觀察人群按生存時(shí)間長(zhǎng)短分為數(shù)個(gè)相等的時(shí)間區(qū)間。其次是計(jì)數(shù)在每一個(gè)區(qū)間開(kāi)始時(shí)的觀察人數(shù)和在區(qū)間內(nèi)的死亡人數(shù);第三步是計(jì)算每一個(gè)區(qū)間內(nèi)的條件死亡概率和條件生存概率。最后按概率乘法原理計(jì)算總生存概率。
例11-15在5年期間內(nèi)共隨訪了411例結(jié)腸癌病例,最長(zhǎng)觀察期為5年。為計(jì)算這一組病人的不同時(shí)間的生存概率,將總觀察時(shí)間按每6個(gè)月1段共分為10個(gè)等長(zhǎng)區(qū)間。記數(shù)每一區(qū)間開(kāi)始時(shí)的病人數(shù)
n i、在區(qū)間內(nèi)的死亡數(shù)
d i和截尾數(shù)c
i。見(jiàn)表11-28中的第1 至4列。
表11-28 411例結(jié)腸癌病例按人壽保險(xiǎn)法計(jì)算生存概率
續(xù)表
表中各列的說(shuō)明:
第2列,區(qū)間(月)(t
i-
t i +1):t
i是月初起點(diǎn),t
i +1是月末終點(diǎn);
第3列,期初人數(shù)n
i:n
i +1= n
i- d
i- c
i;
第4列,期內(nèi)死亡人數(shù)
d i:在區(qū)間(
t i-
t i +1)內(nèi)死于結(jié)腸癌的病例數(shù);
第5列,期內(nèi)失訪人數(shù)c
i:由于遷居或死于其他原因等未觀察到其死于結(jié)腸癌的病例數(shù);
第6列,校正期初人數(shù)N
i:N
i= n
i- c
i/2,即假定每名失訪者在區(qū)間中點(diǎn)失訪,在此區(qū)間內(nèi)提供了半個(gè)區(qū)間的的觀察時(shí)間;
第7列,條件死亡概率q
i:q
i= d
i/N
i,表示在區(qū)間起點(diǎn)t
i生存的一個(gè)人死于區(qū)間(
t i-
t i + 1)的概率;
第8列,條件生存概率s
i:s
i= 1 - q
i,表示在區(qū)間起點(diǎn)t
i-生存的一個(gè)人能活過(guò)區(qū)間(
t i-
t i +1)的概率;
第9列,生存概率
P i:生存概率

,表示從觀察起點(diǎn)開(kāi)始能一直活過(guò)區(qū)間i的概率。即通稱的生存率。
從生存概率
P i分析,前5年的生存概率下降很快,從0.647下降到0.392;后5年的生存概率比較穩(wěn)定,從0.361下降到0.319。存活5年的概率為0.392。50%存活時(shí)間為:

3. Cox比例風(fēng)險(xiǎn)回歸
隨著現(xiàn)代醫(yī)學(xué)的不斷發(fā)展,有關(guān)腫瘤的隨訪研究越來(lái)越多。當(dāng)前腫瘤尚缺少根治方法,這就使得怎樣延長(zhǎng)病人生存時(shí)間和提高生存質(zhì)量的研究,顯得越來(lái)越重要。近年來(lái),怎樣從眾多的風(fēng)險(xiǎn)因素中分辨出對(duì)疾病的發(fā)生、發(fā)展有較大影響的重要因素,已成為腫瘤研究的一個(gè)熱點(diǎn)。大量醫(yī)學(xué)實(shí)例已經(jīng)表明,腫瘤患者的生存時(shí)間與個(gè)體的性別、年齡、肝功能、腎功能等有著密切關(guān)系。不同的個(gè)體具有不同的屬性與指標(biāo),因而,導(dǎo)致各個(gè)個(gè)體之間存在著較大的差異。如果已知在某一時(shí)刻、某一同齡的腫瘤患者群中發(fā)生一個(gè)死亡,那么,這一死亡的可能性對(duì)這群腫瘤患者中每一個(gè)個(gè)體而言,是不一樣的。換句話說(shuō),就是在死亡面前,機(jī)會(huì)并不均等。這樣,利用前面介紹的乘積極限法和人壽保險(xiǎn)表法來(lái)估計(jì)死亡概率等非參數(shù)生存分析統(tǒng)計(jì)方法,就不能滿足多因素分析的要求,必須要有新的模型來(lái)分析與研究各個(gè)個(gè)體背景因素不一致的情形下的生存狀況。癌癥患者生存資料中,反應(yīng)變量為生存時(shí)間與事件結(jié)局,不是單一變量。然而,普通的多元線性回歸和logistic回歸難于分析此類資料,這是由于這兩種模型通常不能全面利用這種存在截尾的不完全數(shù)據(jù)信息,使得所建立的模型失去統(tǒng)計(jì)效能。
目前,生存分析領(lǐng)域最重要的一類分析方法就是時(shí)間到事件(time-to-event)的分析方法。其相應(yīng)提出的模型也被稱之為生存模型。生存模型主要分為兩大類,即20世紀(jì)六七十年代發(fā)展起來(lái)的參數(shù)模型(parametric model)與其同期發(fā)展起來(lái)的半?yún)?shù)模型(semiparametric model)。生存分析中的參數(shù)模型,必須事先指定誤差項(xiàng)的基準(zhǔn)分布,如指數(shù)分布,Gamma分布,Weibull分布等。與參數(shù)模型相比較,雖然半?yún)?shù)模型不能估計(jì)出各時(shí)點(diǎn)的風(fēng)險(xiǎn)率,但是,半?yún)?shù)模型對(duì)生存時(shí)間分布沒(méi)有任何先驗(yàn)要求,并且,可以估計(jì)出各研究因素對(duì)風(fēng)險(xiǎn)率或生存時(shí)間的影響,鑒于腫瘤疾病發(fā)生、發(fā)展和死亡的復(fù)雜本質(zhì),很難確定分布的形式,因此,在腫瘤研究與應(yīng)用領(lǐng)域中,半?yún)?shù)模型比參數(shù)模型更為可取,應(yīng)用范圍也更為廣泛。
經(jīng)典的半?yún)?shù)生存分析模型,主要包括兩類,即一是Cox比例風(fēng)險(xiǎn)回歸模型(proportional hazards regression model,Cox model),二是半?yún)?shù)加速失效時(shí)間模型(semi-parametric accelerated failure time model,AFT model)。本節(jié)先介紹Cox比例風(fēng)險(xiǎn)回歸模型,下一節(jié)介紹加速失效時(shí)間模型。
英國(guó)統(tǒng)計(jì)學(xué)家D. R. Cox于1972年提出了一個(gè)巧妙的、用于分析生存時(shí)間的半?yún)?shù)模型,即,Cox比例風(fēng)險(xiǎn)模型(Cox's proportional hazard model),現(xiàn)在通常稱為Cox模型。有關(guān)Cox比例風(fēng)險(xiǎn)回歸模型的研究和應(yīng)用,特別是在腫瘤的預(yù)后因素分析中,已取得長(zhǎng)足的發(fā)展。
腫瘤患者的生存時(shí)間與一些外部或內(nèi)部的因素有著相當(dāng)強(qiáng)的關(guān)聯(lián),通常將這些因素稱為協(xié)變量。協(xié)變量可以是多維的,記為X =(x
1,x
2,…,x
p)。記每個(gè)個(gè)體協(xié)變量X
i= (x
i1,x
i2,…,x
ip),以表示與第i個(gè)個(gè)體有關(guān)的p維協(xié)變量,第i個(gè)個(gè)體的生存時(shí)間分布依賴于X
i。一般地,將生存分布函數(shù)記為
S(
t | X),其密度函數(shù)記為
f(
t | X),風(fēng)險(xiǎn)函數(shù)記為h(t | X),以表示對(duì)協(xié)變量X的依賴關(guān)系。
(1)風(fēng)險(xiǎn)函數(shù):
對(duì)于Cox比例風(fēng)險(xiǎn)模型而言,風(fēng)險(xiǎn)函數(shù)的理解是至關(guān)重要的。風(fēng)險(xiǎn)函數(shù)基本定義為:

式中的X表示可能對(duì)患者生存時(shí)間產(chǎn)生影響的各種因素,亦稱為協(xié)變量(covariate)。通常假定這些變量不隨時(shí)間的變化而變化。
t表示生存時(shí)間,
h(
t,
X)稱為具有協(xié)變量
X的個(gè)體在t時(shí)刻的風(fēng)險(xiǎn)函數(shù)(hazard function)。
風(fēng)險(xiǎn)函數(shù)具有三個(gè)基本特性:
1)風(fēng)險(xiǎn)函數(shù)不是概率函數(shù),這是因?yàn)轱L(fēng)險(xiǎn)可能會(huì)超過(guò)1.0。這可以通過(guò)風(fēng)險(xiǎn)函數(shù)的定義直接得出。因此,風(fēng)險(xiǎn)函數(shù)不能按照概率予以解釋。另外,雖然風(fēng)險(xiǎn)函數(shù)沒(méi)有上限,但是,它不可能低于0。
2)由于風(fēng)險(xiǎn)函數(shù)本身是由條件概率函數(shù)的導(dǎo)數(shù)來(lái)定義的,它是一個(gè)不可觀測(cè)的理論變量,因而,只能通過(guò)所獲取的數(shù)據(jù)來(lái)估計(jì)風(fēng)險(xiǎn)函數(shù),只能從估計(jì)的角度來(lái)予以解釋。
3)風(fēng)險(xiǎn)最好從個(gè)體的角度來(lái)予以解釋,而不能從群體的角度來(lái)理解。這是因?yàn)槊總€(gè)個(gè)體的風(fēng)險(xiǎn)函數(shù)是互不相同的。
風(fēng)險(xiǎn)函數(shù)
h(t,X)表示生存時(shí)間已達(dá)t時(shí)刻的個(gè)體在t時(shí)刻的瞬時(shí)風(fēng)險(xiǎn)率。它是針對(duì)個(gè)體而言的。風(fēng)險(xiǎn)函數(shù)意味著某個(gè)體在某個(gè)時(shí)間區(qū)間內(nèi),某事件的發(fā)生頻數(shù)。也就是說(shuō),風(fēng)險(xiǎn)函數(shù)是有時(shí)間單位的,它是一個(gè)率的指標(biāo)。例如,按照以往月統(tǒng)計(jì)數(shù)據(jù)表明,某個(gè)體在某個(gè)特定時(shí)間點(diǎn)患上呼吸道感染的風(fēng)險(xiǎn)為0.01,這就是說(shuō),在一個(gè)月內(nèi)該個(gè)體患上呼吸道感染的次數(shù)為0.01次;如果以年來(lái)統(tǒng)計(jì),那么,某個(gè)個(gè)體在某個(gè)特定時(shí)間點(diǎn)患上呼吸道感染的風(fēng)險(xiǎn)為1.0,這就意味著,在一年內(nèi)該個(gè)體患上呼吸道感染的次數(shù)為1.0次。當(dāng)然,這里必須假定患上呼吸道感染的風(fēng)險(xiǎn)在一月或一年內(nèi)是恒定的。如果在一年內(nèi)患病次數(shù)是恒定的,那么,最好采用以年為單位的風(fēng)險(xiǎn)函數(shù)。相對(duì)而言,一年內(nèi)患病次數(shù)的假定要比一月內(nèi)患病次數(shù)的假定更為嚴(yán)格,這是因?yàn)榛忌虾粑栏腥镜拇螖?shù)往往因季節(jié)而變動(dòng)。因此,在對(duì)風(fēng)險(xiǎn)函數(shù)進(jìn)行解釋之前,必須對(duì)統(tǒng)計(jì)區(qū)間予以統(tǒng)一規(guī)范,并加以檢驗(yàn),而這通常從醫(yī)學(xué)的專業(yè)角度來(lái)進(jìn)行事前考慮。
對(duì)于上呼吸道感染這類易患易愈,易于確診,無(wú)后效的疾病來(lái)說(shuō),基于個(gè)體的統(tǒng)計(jì)是易于描述與分析的。然而,對(duì)于癌癥這種罕有的、難以確診的疾病來(lái)說(shuō),基于個(gè)體的統(tǒng)計(jì)幾乎是無(wú)法實(shí)施的,只能假定每個(gè)體的基準(zhǔn)風(fēng)險(xiǎn)是相似的,也就是說(shuō),如果任意兩個(gè)體基本條件一致的話,那么,他們所經(jīng)歷的風(fēng)險(xiǎn)應(yīng)是完全一致的。在這種假定下,可以通過(guò)基于群體的統(tǒng)計(jì)來(lái)估計(jì)個(gè)體的風(fēng)險(xiǎn),這就使得風(fēng)險(xiǎn)的解釋具有群體特性(流行病學(xué)特征)。對(duì)于癌癥之類的疾病,往往通過(guò)觀察大量的隨機(jī)樣本來(lái)確定風(fēng)險(xiǎn)函數(shù)。例如,隨機(jī)抽取10 000人,觀察1年,假定未發(fā)生截尾,暴露共計(jì)10 000人年,在這一年中,共有10人發(fā)生某種特定癌癥,那么,根據(jù)風(fēng)險(xiǎn)相似的假定,風(fēng)險(xiǎn)的最優(yōu)估計(jì)為10/10 000 =0.0001。
風(fēng)險(xiǎn)相似的假定比較難以理解。現(xiàn)在給出一個(gè)常識(shí)性例子,以幫助理解。例如,當(dāng)你說(shuō)“這兩輛不同的車(chē)都在以每小時(shí)80公里的時(shí)速在行駛”這句話時(shí),其客觀實(shí)現(xiàn)是,作為觀察者的你,主觀地認(rèn)為如果這兩輛車(chē)保持當(dāng)前的行駛狀態(tài),那么,無(wú)須考慮它們之間是否確實(shí)存在著本質(zhì)上的差異,而導(dǎo)致某個(gè)時(shí)段這輛車(chē)快一點(diǎn),另外一個(gè)時(shí)段那輛車(chē)快一點(diǎn),并不影響到你觀察它們的整個(gè)行駛過(guò)程,這兩輛不同的車(chē)都應(yīng)在一個(gè)小時(shí)內(nèi)行駛完80公里。
條件風(fēng)險(xiǎn)是指各種外在條件會(huì)影響事件發(fā)生的風(fēng)險(xiǎn)。這也就是說(shuō),對(duì)于某個(gè)特定個(gè)體的某個(gè)特定事件發(fā)生風(fēng)險(xiǎn)是會(huì)隨著各種外在因素的變化而變化的,并非一成不變。例如,乙肝患者患肝癌的風(fēng)險(xiǎn)較大,而生活規(guī)律會(huì)降低肝癌患病的風(fēng)險(xiǎn)。大量事實(shí)表明,隨著外在條件的劇烈改變,風(fēng)險(xiǎn)的改變往往也是階梯樣的,并不是連續(xù)性的,而那些大量的只能引起風(fēng)險(xiǎn)輕微改變的外在條件,往往是會(huì)相互抵消的。因此,可以建立與常規(guī)多元線性回歸類似的統(tǒng)計(jì)模型,其回歸系數(shù)解釋大致同樣類似于多元線性回歸。
(2)Cox比例風(fēng)險(xiǎn)回歸模型結(jié)構(gòu):
在比例風(fēng)險(xiǎn)模型中,假設(shè)在時(shí)點(diǎn)
t時(shí),個(gè)體出現(xiàn)觀察結(jié)局的風(fēng)險(xiǎn)大小可以分解為兩個(gè)部分。第一部分為一個(gè)基準(zhǔn)風(fēng)險(xiǎn)函數(shù)h
0(t)(baseline hazard function),表示某類個(gè)體的共性風(fēng)險(xiǎn),該風(fēng)險(xiǎn)量是未知的,屬于非參數(shù)部分,需要注意的是,基準(zhǔn)風(fēng)險(xiǎn)函數(shù)h
0(t)會(huì)隨著時(shí)間的變化而變化;第二部分為第j個(gè)影響因素使得該風(fēng)險(xiǎn)量從h
0(t)增加e
βjxj倍,表示某類個(gè)體的特殊性質(zhì),屬于參數(shù)部分,其值是可估計(jì)的。從而,個(gè)體在時(shí)點(diǎn)
t的風(fēng)險(xiǎn)量變成
h 0(
t)
e βjxj。因此,如果在
p個(gè)因素同時(shí)影響生存過(guò)程的情況下,在時(shí)點(diǎn)t的風(fēng)險(xiǎn)量(常稱為風(fēng)險(xiǎn)比hazard rate,HR),則模型為
h(t,X)= h0(t)eβ1x1eβ2x2…eβpxp
因此,Cox比例風(fēng)險(xiǎn)模型的基本結(jié)構(gòu)如下:
h(t,X)= h0(t)eβ1x1eβ2x2…eβpxp= eβ1x1+β2x2+…+βpxp
(11-66)
將基礎(chǔ)風(fēng)險(xiǎn)移到等式左側(cè),兩邊取自然對(duì)數(shù),得,
ln(Rh(t))= ln(h(t,X)/h0(t))=β1x1+β2x2+…+βpxp
(11-67)
式中R
h(t)= h(t,X)/h
0(t)稱相對(duì)風(fēng)險(xiǎn)。上式和多元線性回歸模型非常類似,因此,Cox比例風(fēng)險(xiǎn)模型,也被稱為Cox回歸。與一般多元線性回歸不同的是,Cox比例風(fēng)險(xiǎn)模型的截距項(xiàng)不是恒定的,會(huì)隨著時(shí)間的變化而變化。Cox模型是目前解決多因素對(duì)生存過(guò)程影響最常用的統(tǒng)計(jì)分析方法,它將協(xié)變量對(duì)生存期的影響表現(xiàn)在風(fēng)險(xiǎn)函數(shù)的關(guān)系上,從而有效地解決了截尾數(shù)據(jù)的問(wèn)題。
(3)Cox比例風(fēng)險(xiǎn)模型的基本假定:
根據(jù)Cox比例風(fēng)險(xiǎn)模型基本形式,該模型要求資料事先滿足兩個(gè)假定:一是,對(duì)數(shù)線性假定;二是,比例風(fēng)險(xiǎn)假定(assumption of proportional hazard)。
1)對(duì)數(shù)線性假定:
Cox比例風(fēng)險(xiǎn)模型假定協(xié)變量的影響為線性模型,風(fēng)險(xiǎn)比
R h(t)= h(t,X)/h
0(t)的自然對(duì)數(shù)與各影響因素呈線性關(guān)系,服從線性模型的一般規(guī)則。各風(fēng)險(xiǎn)因素對(duì)風(fēng)險(xiǎn)比的影響具有乘積性,而不是可加性。
2)Cox比例風(fēng)險(xiǎn)假定:
比例風(fēng)險(xiǎn)假定,是指假設(shè)有兩個(gè)個(gè)體,其協(xié)變量的值分別為X 和
X *,其風(fēng)險(xiǎn)比為:

該比值與基礎(chǔ)風(fēng)險(xiǎn)量h
0(t)無(wú)關(guān),在時(shí)間t上為常數(shù)。也就是說(shuō),風(fēng)險(xiǎn)比是成正比例關(guān)系。上式的值被稱為具有風(fēng)險(xiǎn)因素X的個(gè)體對(duì)風(fēng)險(xiǎn)因素為X
*的個(gè)體的相對(duì)危險(xiǎn)度(relative risk,RR)或風(fēng)險(xiǎn)比(risk ratio,RR)。這種協(xié)變量效應(yīng)不會(huì)隨著時(shí)間的變化而改變的假定,被稱為等比例風(fēng)險(xiǎn)假定,簡(jiǎn)稱PH假定。這也是比例風(fēng)險(xiǎn)模型的由來(lái)。該假定暗示各組的風(fēng)險(xiǎn)曲線是成比例的,不能出現(xiàn)交叉的情形。對(duì)于Cox模型來(lái)說(shuō),比例風(fēng)險(xiǎn)假定是至關(guān)重要的。如若這一假定不成立,那么,Cox模型就會(huì)成為一種統(tǒng)計(jì)效能極差的生存分析模型。因此,需要對(duì)比例風(fēng)險(xiǎn)假定應(yīng)作出檢驗(yàn)與評(píng)估。
(4)參數(shù)估計(jì):
除了對(duì)數(shù)線性假定與比例風(fēng)險(xiǎn)假定,還必須無(wú)信息截尾假定,以及,在協(xié)變量X給定后,事件發(fā)生的時(shí)間和截尾時(shí)間之間相互獨(dú)立。為此,Cox比例風(fēng)險(xiǎn)模型提供了一種新的參數(shù)估計(jì)方法,即偏似然估計(jì)(partial maximum likelihood)。通常,似然函數(shù)是基于結(jié)果變量的分布而來(lái)的,而Cox比例風(fēng)險(xiǎn)模型對(duì)結(jié)果變量(生存時(shí)間)沒(méi)有任何假定分布,所以,該模型不能像參數(shù)模型那樣建立一個(gè)完全基于結(jié)果變量分布的似然函數(shù)。相反,Cox似然函數(shù)的建立是基于事件發(fā)生的秩序,而不是事件的聯(lián)合分布。因此,Cox似然被稱為偏似然。偏似然方法基于如下假設(shè):兩個(gè)生存時(shí)間(或事件發(fā)生時(shí)間)的間隔長(zhǎng)度對(duì)協(xié)變量和風(fēng)險(xiǎn)比之間的關(guān)系無(wú)任何影響。也就是說(shuō),兩個(gè)連續(xù)事件的間隔長(zhǎng)度無(wú)論是否為0,對(duì)偏似然函數(shù)不能提供任何有效信息,僅僅考慮事件發(fā)生的先后順序,故而,在Cox比例風(fēng)險(xiǎn)模型中,事件發(fā)生時(shí)間,也被稱為有序事件發(fā)生時(shí)間(ordered failure times)。由于Cox比例風(fēng)險(xiǎn)模型僅僅使用了部分變量資料,沒(méi)有估計(jì)基準(zhǔn)風(fēng)險(xiǎn)函數(shù),Cox的似然函數(shù)被稱為偏似然函數(shù)(partial likelihood function)。偏似然函數(shù)不是真正的似然函數(shù),這是因?yàn)榻匚埠臀唇匚驳膶?shí)際生存時(shí)間沒(méi)有在偏似然函數(shù)中得到具體體現(xiàn)。這就使得偏似然法難以克服巨大的理論研究難題。
(5)模型參數(shù)的意義及其解釋 1)回歸系數(shù)與相對(duì)危險(xiǎn)度:
由Cox比例風(fēng)險(xiǎn)模型的公式,可以得到:

兩邊取自然對(duì)數(shù),可得到

因而,回歸系數(shù)β
j不會(huì)隨著時(shí)間的變化而改變,保持恒定。其與風(fēng)險(xiǎn)函數(shù)h(t,X)之間有如下關(guān)系:當(dāng)β
j>0時(shí),則隨著協(xié)變量x
j的增大,其風(fēng)險(xiǎn)h(t,X)也相應(yīng)增大,表示患者的風(fēng)險(xiǎn)越大;當(dāng)β
j<0時(shí),則隨著協(xié)變量x
j絕對(duì)值的增大,其風(fēng)險(xiǎn)h(t,X)也相應(yīng)減小,表示患者的風(fēng)險(xiǎn)越?。划?dāng)β
j=0時(shí),則隨著協(xié)變量x
j的增大對(duì)其風(fēng)險(xiǎn)h(t,X)沒(méi)有影響,表示患者的風(fēng)險(xiǎn)無(wú)變化。
對(duì)于具有協(xié)變量X和X
*的兩個(gè)個(gè)體,其風(fēng)險(xiǎn)比為:

該比值同樣不會(huì)隨著時(shí)間的變化而改變,它表示在任何生存時(shí)間上,二者之間的相對(duì)危險(xiǎn)度。對(duì)某個(gè)協(xié)變量特定取值而言,在保持其他協(xié)變量取值不變的情形下,回歸系數(shù)β
j可以解釋為該協(xié)變量變化一個(gè)單位,其相對(duì)危險(xiǎn)度變化e
βj。據(jù)此,可以求得各協(xié)變量的相對(duì)危險(xiǎn)度估計(jì)值,這就使得Cox比例風(fēng)險(xiǎn)模型具有明確的流行病學(xué)意義,即,當(dāng)協(xié)變量x改變一個(gè)單位時(shí),引起的死亡風(fēng)險(xiǎn)改變倍數(shù)的自然對(duì)數(shù)值。
2)個(gè)體預(yù)后指數(shù):
Cox比例風(fēng)險(xiǎn)模型的線性參數(shù)部分β
1x
1+β
2x
2+…+β
px
p與風(fēng)險(xiǎn)函數(shù)h(t,X)成正比,即,β
1x
1+β
2x
2+…+β
px
p越大,風(fēng)險(xiǎn)h(t,X)也相應(yīng)地越大。由此Cox模型的線性參數(shù)部分反映了一個(gè)個(gè)體的預(yù)后,β
1x
1+β
2x
2+…+β
px
p被稱為預(yù)后指數(shù)(prognostic index,PI)。如果預(yù)后指數(shù)越大,那么,某特定患者的風(fēng)險(xiǎn)也就越大,預(yù)后越差;反之,預(yù)后指數(shù)越小,預(yù)后越好。
如果對(duì)各協(xié)變量進(jìn)行標(biāo)準(zhǔn)化變換后,得到的Cox模型的線性參數(shù)部分,即為標(biāo)準(zhǔn)化的預(yù)后指數(shù)sPI。當(dāng)標(biāo)準(zhǔn)化的預(yù)后指數(shù)為0時(shí),表明某特定患者的風(fēng)險(xiǎn)達(dá)到平均風(fēng)險(xiǎn)水平;當(dāng)標(biāo)準(zhǔn)化的預(yù)后指數(shù)大于0時(shí),表示該患者的風(fēng)險(xiǎn)超過(guò)平均風(fēng)險(xiǎn)水平;當(dāng)標(biāo)準(zhǔn)化的預(yù)后指數(shù)小于0時(shí),表示該患者的風(fēng)險(xiǎn)低于平均風(fēng)險(xiǎn)水平。
(6)比例風(fēng)險(xiǎn)假定的檢驗(yàn):
由于Cox比例風(fēng)險(xiǎn)模型具有一系列優(yōu)點(diǎn),如,可以同時(shí)分析各種協(xié)變量對(duì)生存時(shí)間的影響,并且無(wú)須對(duì)基準(zhǔn)風(fēng)險(xiǎn)分布進(jìn)行任何假定,特別是大部分統(tǒng)計(jì)軟件均可容易地實(shí)現(xiàn)Cox比例風(fēng)險(xiǎn)模型的擬合與分析等,從而,導(dǎo)致Cox比例風(fēng)險(xiǎn)模型在大量研究中存在著濫用現(xiàn)象。需要特別強(qiáng)調(diào)的是,比例風(fēng)險(xiǎn)假定是Cox比例風(fēng)險(xiǎn)模型的最為根本性的假設(shè)。這就意味著,各種組合條件下的生存曲線不能交叉。只有當(dāng)資料滿足比例風(fēng)險(xiǎn)假定時(shí),Cox比例風(fēng)險(xiǎn)模型才是統(tǒng)計(jì)有效的。因此,對(duì)于Cox比例風(fēng)險(xiǎn)模型而言,PH假設(shè)檢驗(yàn)至關(guān)重要。但是,風(fēng)險(xiǎn)函數(shù)是基于個(gè)體的,而非群體的,這就導(dǎo)致檢驗(yàn)PH假定幾乎是不可能的。從實(shí)用的角度來(lái)說(shuō),必須首先假定風(fēng)險(xiǎn)函數(shù)是群體相似的。在此種假定下,PH假定的近似檢驗(yàn)方法主要有兩大類:一類是針對(duì)每個(gè)協(xié)變量,單獨(dú)進(jìn)行PH假設(shè)檢驗(yàn),另一類是針對(duì)Cox比例風(fēng)險(xiǎn)模型,進(jìn)行殘差分析,其中,殘差主要有鞅殘差,偏差殘差,Schoenfeld殘差,Score殘差等。
第一類PH假設(shè)檢驗(yàn)方法主要有以下三種方法:一是,如若協(xié)變量為分類變量時(shí),可以對(duì)每一類別分別作Kaplan-Meier生存曲線圖,觀察各生存曲線間是否有交叉,若無(wú)交叉,可以認(rèn)為滿足比例風(fēng)險(xiǎn)假定;二是,以生存時(shí)間t為橫軸,對(duì)數(shù)對(duì)數(shù)生存率ln(- ln (S(t))為縱軸,繪制分類協(xié)變量各個(gè)類別的生存曲線,如果這些生存曲線平行,可以認(rèn)為滿足比例風(fēng)險(xiǎn)假定;三是,對(duì)于連續(xù)型協(xié)變量,可以將其與生存時(shí)間的對(duì)數(shù)構(gòu)建交互作用項(xiàng)x
jln(t),納入到Cox比例風(fēng)險(xiǎn)模型之中,如果該交互作用項(xiàng)無(wú)統(tǒng)計(jì)學(xué)意義,那么,可以認(rèn)為滿足比例風(fēng)險(xiǎn)假定。
第二類PH假設(shè)檢驗(yàn)方法主要有以下兩種方法:一是,以殘差為縱坐標(biāo),時(shí)間為橫坐標(biāo)作殘差圖,從圖中判斷殘差是否存在著某種非隨機(jī)性模式,如若存在的,則認(rèn)為不滿足PH假定;二是,直接建立殘差關(guān)于時(shí)間的回歸模型,如若回歸系數(shù)有統(tǒng)計(jì)學(xué)意義,則可以認(rèn)為不滿足PH假定。
需要注意的是,第一類PH假設(shè)檢驗(yàn)方法,是將各協(xié)變量進(jìn)行分割處理,即使在各單獨(dú)的協(xié)變量下,滿足比例風(fēng)險(xiǎn)假定,也并不必然意味著在多個(gè)協(xié)變量存在著復(fù)雜關(guān)系的情形下,仍然能夠滿足比例風(fēng)險(xiǎn)假定。特別是,當(dāng)各分層的觀察對(duì)象個(gè)數(shù)較少時(shí),更是難以判斷比例風(fēng)險(xiǎn)假定是否真正成立。第一類PH假設(shè)檢驗(yàn)方法的統(tǒng)計(jì)效能較低,目前更多地使用第二類PH假設(shè)檢驗(yàn)方法。雖然第二類PH假設(shè)檢驗(yàn)方法可以從Cox模型的角度進(jìn)行整體考慮,但是,Cox模型殘差本身包含有過(guò)多干擾,其性質(zhì)復(fù)雜,難以研究,并且,存在截尾,某些重要協(xié)變量未包含在模型中,這些因素均使得第二類方法也難以對(duì)PH假定作出較嚴(yán)格的檢驗(yàn)。
當(dāng)比例風(fēng)險(xiǎn)假定不能滿足時(shí),主要采用以下三類方法予以處理。一是,將不成比例關(guān)系的協(xié)變量作為分層變量,然后,再利用其他協(xié)變量構(gòu)建Cox比例風(fēng)險(xiǎn)模型進(jìn)行分析;二是,采用參數(shù)模型替代Cox比例風(fēng)險(xiǎn)模型;三是,采用無(wú)須比例風(fēng)險(xiǎn)假定的其他半?yún)?shù)模型,如,半?yún)?shù)加速失效時(shí)間模型,半?yún)?shù)轉(zhuǎn)換模型等,對(duì)資料予以分析。需要說(shuō)明的是,第一類替代方法是對(duì)于各協(xié)變量存在復(fù)雜關(guān)系的情形并不適用,尤其是,各分層的觀察對(duì)象個(gè)數(shù)較少時(shí),所建立的Cox比例風(fēng)險(xiǎn)模型并不可靠;第二類替代方法,則需要對(duì)生存時(shí)間進(jìn)行事先分布假定,喪失了半?yún)?shù)模型的優(yōu)勢(shì);第三類替代方法,既無(wú)須進(jìn)行分布假定,也無(wú)須比例風(fēng)險(xiǎn)假定,是較好的Cox比例風(fēng)險(xiǎn)模型的替代方案,特別是,半?yún)?shù)加速失效時(shí)間模型,得到研究者與實(shí)用者的越來(lái)越廣泛關(guān)注。
例11-16為了解影響乳腺癌患者術(shù)后生存狀態(tài)的因素,對(duì)32名手術(shù)后的乳腺癌患者進(jìn)行了隨訪。其收集的影響因素包括遠(yuǎn)期生活質(zhì)量評(píng)分(KPS),從確診到入組的時(shí)間(Duration),年齡(Age,歲),是否家庭護(hù)理(Nurse,否=0,是=1),治療方法(Therapy,化學(xué)治療=0,生物制劑治療=1),結(jié)果變量為術(shù)后生存時(shí)間(Time,月)以及隨訪結(jié)局(Status,截尾=0,未截尾=1),數(shù)據(jù)列于表11-29試對(duì)此資料予以分析。
表11-29 32名乳腺癌患者手術(shù)后生存資料
續(xù)表
在本例中,采用SAS統(tǒng)計(jì)軟件的PHREG過(guò)程擬合Cox比例風(fēng)險(xiǎn)模型,由于在大量研究中,使用的統(tǒng)計(jì)方法為Cox比例風(fēng)險(xiǎn)模型,因而,為了保證研究之間的可比性,本例先使用Cox比例風(fēng)險(xiǎn)模型予以分析,再根據(jù)殘差分析結(jié)果,利用半?yún)?shù)加速失效時(shí)間模型對(duì)本資料進(jìn)行分析(見(jiàn)下節(jié))。
第一步,對(duì)截尾進(jìn)行分析。由于本實(shí)例中,截尾僅有2例,占全部觀察個(gè)體的6.25%。截尾比例較小,可以直接作生存分析。
第二步,建立Cox比例風(fēng)險(xiǎn)模型。對(duì)每個(gè)影響因素單獨(dú)進(jìn)行單因素Cox回歸分析,得到表11-30。由下表可見(jiàn),在α= 0.05水準(zhǔn)上,有統(tǒng)計(jì)學(xué)意義的因素僅為遠(yuǎn)期生活質(zhì)量評(píng)分。
表11-30 32名乳腺癌患者術(shù)后生存資料單因素Cox回歸分析結(jié)果
因此,無(wú)須對(duì)該資料進(jìn)行多因素Cox回歸分析,僅將KPS納入Cox回歸模型之中。由此,可以認(rèn)為對(duì)乳腺癌患者死亡風(fēng)險(xiǎn)有影響的因素是遠(yuǎn)期生活質(zhì)量評(píng)分。從回歸系數(shù)的符號(hào)和相對(duì)危險(xiǎn)度的大小來(lái)看,該因素是保護(hù)性因素。乳腺癌患者KPS每增加10分,術(shù)后死亡風(fēng)險(xiǎn)將下降至0.8088倍,即減少19.12%。此研究表明遠(yuǎn)期生活質(zhì)量評(píng)分越高,其預(yù)后更佳。
本例Cox比例風(fēng)險(xiǎn)模型表達(dá)式為:
h(t | X)= h0(t)e-0.02122KPS
表達(dá)式右側(cè)指數(shù)部分取值越大,則風(fēng)險(xiǎn)函數(shù)越大,預(yù)后相對(duì)越差。本例預(yù)后指數(shù)
PI = -0.02122KPS。可按適當(dāng)?shù)念A(yù)后指數(shù)分位將觀察個(gè)體分成低危組、中危組、高危組。對(duì)各組制定更為合理的個(gè)體化治療與康復(fù)方案,正確指導(dǎo)乳腺癌患者的治療,以降低其長(zhǎng)期死亡風(fēng)險(xiǎn)。
第三步,Cox回歸殘差分析。相對(duì)于其他殘差圖而言,Schoenfeld殘差圖的效能更高。理論上,Schoenfeld殘差的期望為0,且近似不相關(guān)。PH假定下,Schoenfeld殘差散點(diǎn)圖應(yīng)圍繞0,呈隨機(jī)波動(dòng)。如若殘差圖存在某種趨勢(shì)或模式,則有理由認(rèn)為違背PH假定。本例的殘差圖見(jiàn)圖11-14。
圖11-14 32名乳腺癌患者Cox模型的Schoenfeld殘差圖
由圖11-14可見(jiàn),當(dāng)生存時(shí)間大于100時(shí),殘差分布不對(duì)稱,大于0的殘差似乎偏多,且呈上升趨勢(shì)。這表明本例可能違背PH假定,擬合Cox比例風(fēng)險(xiǎn)模型似乎并不太合適,需要擬合其他模型予以分析。進(jìn)一步分析見(jiàn)下面5.4節(jié)。
4.半?yún)?shù)加速失效時(shí)間模型
在大量醫(yī)學(xué)研究與應(yīng)用中,發(fā)現(xiàn)盡管Cox比例風(fēng)險(xiǎn)模型具有眾多優(yōu)點(diǎn),其適用范圍相當(dāng)廣泛,但是,仍有眾多資科不適合Cox模型來(lái)分析。這主要是因?yàn)镃ox比例風(fēng)險(xiǎn)回歸模型事先要求資料滿足兩個(gè)基本假定:一是比例風(fēng)險(xiǎn)假定;二是對(duì)數(shù)線性假定。特別是,當(dāng)資料違背比例風(fēng)險(xiǎn)假定時(shí),如果強(qiáng)行擬合Cox比例風(fēng)險(xiǎn)模型,就極有可能得出與實(shí)際問(wèn)題不相符合的解釋與預(yù)測(cè)等,甚至相反的結(jié)論。在腫瘤研究中,存在著大量誤用、濫用Cox模型的現(xiàn)象,需要可以替代Cox模型的統(tǒng)計(jì)方法,更好地分析醫(yī)學(xué)研究數(shù)據(jù)。
作為Cox比例風(fēng)險(xiǎn)模型的一種很好的替代模型,半?yún)?shù)加速失效時(shí)間模型(semi-parametric accelerated failure time model,semi-parametric AFT model)也是一種線性回歸模型,它把生存時(shí)間的對(duì)數(shù)作為反應(yīng)變量,而且誤差項(xiàng)的分布也是未知的。該模型首先是由Pieruschka在1961年提出,并應(yīng)用于加速壽命試驗(yàn)。與Cox模型相比較,加速失效對(duì)間模型研究協(xié)變量與對(duì)數(shù)生存時(shí)間的回歸關(guān)系,模型形式更接近于一般的線性回歸方程,回歸系數(shù)的解釋也與一般線性回歸更相似,模型結(jié)果的解釋更為簡(jiǎn)單、直觀,同時(shí),也易于理解,有利于被醫(yī)學(xué)研究人員所接受。特別是,當(dāng)所研究的因素僅僅是延遲或加快事件的起始時(shí)間,而不是對(duì)整個(gè)生存過(guò)程產(chǎn)生影響時(shí),加速失效時(shí)間模型具有更好的統(tǒng)計(jì)效能,而在此情形下,Cox比例風(fēng)險(xiǎn)模型的統(tǒng)計(jì)效能極差。
(1)半?yún)?shù)加速失效時(shí)間模型的基本形式:
相關(guān)公式符號(hào)意義見(jiàn)前一節(jié),加速失效時(shí)間模型的基本形式如下:

其中,T
0是不考慮協(xié)變量時(shí)的基準(zhǔn)分布的生存時(shí)間,T為在協(xié)變量條件下的生存時(shí)間。在加速失效時(shí)間模型中,將生存時(shí)間之比的自然對(duì)數(shù),協(xié)變量對(duì)其存在著線性影響,也就是說(shuō),生存時(shí)間的延長(zhǎng)或縮短僅僅與協(xié)變量有關(guān),與時(shí)間無(wú)關(guān)。為此,通常將上式取自然對(duì)數(shù),將其線性化為:

進(jìn)一步變形,可化為:
ln(T)=β1x1+β2x2+…+βpxp+ ln(T0)=β1x1+β2x2+…+βpxp+ε
(11-73)
其中,誤差項(xiàng)ε表示獨(dú)立同分布的隨機(jī)變量。需要注意是,誤差項(xiàng)ε是基準(zhǔn)生存函數(shù)的對(duì)數(shù),其均數(shù)不一定為0,如果指定誤差項(xiàng)的分布,那么,上述模型即為參數(shù)加速失效時(shí)間模型,否則,就屬于半?yún)?shù)加速失效時(shí)間模型。從半?yún)?shù)加速時(shí)間模型的形式上看,與一般的線性回歸模型極為相似,無(wú)須對(duì)誤差項(xiàng)的分布進(jìn)行指定,這使得該模型具有良好的可解釋性與可適用性。
(2)模型的基本假定:
根據(jù)半?yún)?shù)加速失效時(shí)間模型基本形式,該模型要求資料事先滿足兩個(gè)假定:一是對(duì)數(shù)線性假定;二是時(shí)間尺度比例假定。
1)對(duì)數(shù)線性假定:
半?yún)?shù)加速失效時(shí)間模型同樣假定協(xié)變量對(duì)失效時(shí)間的對(duì)數(shù)的影響為線性模型,時(shí)間之比的
的自然對(duì)數(shù)與各影響因素呈線性關(guān)系,服從線性模型的一般規(guī)則。各風(fēng)險(xiǎn)因素對(duì)時(shí)間之比的影響具有乘積性,而不是可加性。
2)時(shí)間尺度比例假定:
假設(shè)協(xié)變量x
j,j = 1,2,…,p,均為0時(shí),基準(zhǔn)生存函數(shù)S
0(t)= e
ε0,即,基準(zhǔn)生存函數(shù)與誤差項(xiàng)ε
0存在著指數(shù)關(guān)系。如果個(gè)體具有協(xié)變量x,那么,

其中,參數(shù)φ= e
-(β1x1+β2x2+…+βpxp),稱為加速因子(acceleration factor)。根據(jù)上式,協(xié)變量X的作用只是改變?cè)瓉?lái)生存時(shí)間的尺度,改變的幅度大小由φ= e
-(β1x1+β2x2+…+βpxp)來(lái)決定。當(dāng)φ<1時(shí),生存時(shí)間以一恒定比例被拉長(zhǎng),反之,生存時(shí)間以一恒定的比例縮短。其圖11-15如下:
圖11-15 不同加速因子的生存概率曲線
由于當(dāng)φ>1時(shí),其生存曲線存在著一個(gè)加速度,下降更快,故而,將該模型稱為加速失效時(shí)間模型。
(3)與風(fēng)險(xiǎn)比的關(guān)系:
根據(jù)生存函數(shù),可以得到如下風(fēng)險(xiǎn)函數(shù):
h(t,X)= h0(te-(β1x1+β2x2+…+βpxp))e-(β1x1+β2x2+…+βpxp)
(11-75)
假設(shè)有兩個(gè)個(gè)體,其協(xié)變量的值分別為X和X
*,其風(fēng)險(xiǎn)比為:

根據(jù)上式,不難推論出,當(dāng)生存時(shí)間分布服從Weibull分布時(shí),加速失效時(shí)間模型與Cox比例風(fēng)險(xiǎn)模型是完全等價(jià)。另外,由上式也可知,加速失效時(shí)間模型無(wú)須滿足比例風(fēng)險(xiǎn)假定,可以處理更廣泛的生存數(shù)據(jù)類型。
在回歸系數(shù)解釋上,加速失效時(shí)間模型回歸系數(shù)是針對(duì)生存時(shí)間之比而言,而Cox比例風(fēng)險(xiǎn)模型是針對(duì)風(fēng)險(xiǎn)之比而言的。
(4)參數(shù)估計(jì):
本節(jié)主要介紹Jin所提出的基于秩的加速失效時(shí)間模型估計(jì)方法。令

,定義殘差:

定義兩個(gè)計(jì)數(shù)過(guò)程N(yùn)
i(β;t)與Y
i(β;t),
Ni(β;t)= Iti≤tI{ ei(β)≤t}
Yi(β;t)= I{ ei(β)≥t}
令

那么,回歸系數(shù)β的加權(quán)l(xiāng)og-rank估計(jì)函數(shù)為

或者,

其中,X(b;t)= S
(1)(b;t)/S
(0)(b;t),w是加權(quán)函數(shù)。顯然,當(dāng)φ=1時(shí),該統(tǒng)計(jì)量就是log-rank檢驗(yàn)統(tǒng)計(jì)量;當(dāng)φ= S
(0)時(shí),該統(tǒng)計(jì)量就是Wilcoxon(Gehan)檢驗(yàn)統(tǒng)計(jì)量。因此,可以說(shuō),半?yún)?shù)加速失效時(shí)間模型是乘極限法與壽命表法的一種自然擴(kuò)展。然而,Cox比例風(fēng)險(xiǎn)模型卻難以視為對(duì)一個(gè)分組因素時(shí)非參數(shù)生存分析方法的自然擴(kuò)展。
加速失效時(shí)間模型回歸系數(shù)的估計(jì)為加權(quán)l(xiāng)og-rank估計(jì)函數(shù)U
w(β)的根。雖然回歸系數(shù)的估計(jì)較易得到,但是,其方差協(xié)方差陣極難計(jì)算,使得各回歸系數(shù)的檢驗(yàn)統(tǒng)計(jì)量與可信區(qū)間的計(jì)算難以實(shí)現(xiàn)。一種可行的方法就是使用bootstrap法,重復(fù)抽樣得到回歸系數(shù)估計(jì)的經(jīng)驗(yàn)分布,從而,得到回歸系數(shù)
模型參數(shù)的意義及其解釋 1)回歸系數(shù):</p>
<div id=)
與Cox比例風(fēng)險(xiǎn)模型回歸系數(shù)的流行病學(xué)意義不同的是,加速失效時(shí)間模型回歸系數(shù)具有比較明確的臨床意義,它直接反映了各協(xié)變量對(duì)各個(gè)個(gè)體生存時(shí)間的影響。由加速失效時(shí)間模型的公式,可以得到
S(t|X)= S0(te-(β1x1+β2x2+…+βpxp))
(11-80)
回歸系數(shù)β
j的指數(shù)e
βj稱為時(shí)間比(time ratio)。其不會(huì)隨著時(shí)間的變化而改變,保持恒定。它與生存函數(shù)S(t│X)之間有如下關(guān)系:當(dāng)e
βj>1時(shí),則隨著協(xié)變量x
j的增大,生存函數(shù)S(t│X)的遞減速度也相應(yīng)減小,表示患者的生存時(shí)間越長(zhǎng);當(dāng)e
βj<1時(shí),則隨著協(xié)變量x
j絕對(duì)值的增大,生存函數(shù)S(t│X)的遞減速度也相應(yīng)增大,表示患者的生存時(shí)間越短;當(dāng)e
βj=1時(shí),則協(xié)變量x
j對(duì)生存函數(shù)S(t│X)沒(méi)有影響,表示患者的生存時(shí)間無(wú)變化。
從上面的公式,難以直觀地看出各協(xié)變量的意義,采用分位函數(shù)(quantile function)的形式,可將其變換如下:
Q(p|X)= Q0(p)e-(β1x1+β2x2+…+βpxp))
(11-81)
由上式可見(jiàn),對(duì)某個(gè)協(xié)變量特定取值而言,在保持其他協(xié)變量取值不變的情形下,回歸系數(shù)β
j可以解釋為該協(xié)變量變化一個(gè)單位,其生存時(shí)間變化e
βj倍(圖11-16)。
圖11-16 加速失效時(shí)間模型
需要說(shuō)明的是,根據(jù)上圖中的左圖,兩組的生存時(shí)間具有明顯差異,而通過(guò)右圖,兩組的風(fēng)險(xiǎn)基本一致,這是因?yàn)閮蓷l生存函數(shù)曲線的斜率基本相等之故。由此可見(jiàn),相對(duì)危險(xiǎn)度的高低與生存時(shí)間的長(zhǎng)短并不存在必然聯(lián)系,相對(duì)危險(xiǎn)度高不意味著生存時(shí)間短,相對(duì)危險(xiǎn)度為1,也不意味著生存時(shí)間相等,相對(duì)危險(xiǎn)度低也不意味著生存時(shí)間就長(zhǎng)。與相對(duì)危險(xiǎn)度不同的是,時(shí)間比的解釋比較直觀,直接反映生存時(shí)間的長(zhǎng)短,時(shí)間比是臨床研究的關(guān)注焦點(diǎn)。而相對(duì)危險(xiǎn)度,是流行病學(xué)研究的關(guān)注焦點(diǎn),它只能間接地反映個(gè)體的生存時(shí)間。
2)個(gè)體加速因子:
如果加速因子越大,那么,某特定患者的整個(gè)生存期越短;反之,加速因子越小,整個(gè)生存期越長(zhǎng)。當(dāng)φ>1時(shí),其生存曲線下降較快,整個(gè)生存期較短;當(dāng)φ<1時(shí),其生存曲線下降較慢,整個(gè)生存期較長(zhǎng);當(dāng)φ=1時(shí),其生存曲線與基準(zhǔn)生存曲線相同,整個(gè)生存期與基準(zhǔn)生存期相同。
如果對(duì)各協(xié)變量進(jìn)行標(biāo)準(zhǔn)化變換后,得到的加速失效時(shí)間模型的線性參數(shù)部分,即為標(biāo)準(zhǔn)化的時(shí)間比。當(dāng)標(biāo)準(zhǔn)化的時(shí)間比為1時(shí),表明某特定患者的整個(gè)生存期達(dá)到平均生存水平;當(dāng)標(biāo)準(zhǔn)化的時(shí)間比大于1時(shí),表示該患者的整個(gè)生存期短于平均生存水平;當(dāng)標(biāo)準(zhǔn)化的時(shí)間比小于1時(shí),表示該患者的整個(gè)生存期長(zhǎng)于平均生存水平。
3)時(shí)間尺度變化比例:
加速失效時(shí)間模型可以描述任意兩個(gè)個(gè)體生存狀態(tài)之間的關(guān)系。對(duì)于具有協(xié)變量X和X
*的兩個(gè)個(gè)體(前者為甲個(gè)體,后者為乙個(gè)體),其生存函數(shù)之間的關(guān)系為:

上面公式表明,任意兩個(gè)個(gè)體僅僅是生存時(shí)間尺度發(fā)生變化,時(shí)間尺度變化比例為δ
*,表示二者之間的整個(gè)生存期相差δ
*倍。當(dāng)時(shí)間尺度比例δ
*>1時(shí),表示甲個(gè)體整個(gè)生存期要短于乙個(gè)體;當(dāng)時(shí)間尺度比例δ
*<1時(shí),表示甲個(gè)體整個(gè)生存期要長(zhǎng)于乙個(gè)體;當(dāng)時(shí)間尺度比例δ
*=1時(shí),表示甲個(gè)體與乙個(gè)體的整個(gè)生存期相當(dāng)。例如,若δ
*=4,則表示這兩個(gè)個(gè)體在整個(gè)生存期均相差4倍。
(6)模型選擇:
從理論上講,Cox比例風(fēng)險(xiǎn)模型的兩個(gè)基本假定——對(duì)數(shù)線性假定與比例風(fēng)險(xiǎn)假定難以驗(yàn)證,加速失效時(shí)間模型的兩個(gè)基本假定——對(duì)數(shù)線性假定與時(shí)間尺度比例假定也同樣難以驗(yàn)證。因此,從實(shí)用的角度來(lái)說(shuō),選擇何種統(tǒng)計(jì)模型的較佳途徑是依據(jù)數(shù)據(jù)的擬合程度和可解釋性來(lái)予以判斷。
如果加速失效時(shí)間模型對(duì)數(shù)據(jù)的擬合程度和可解釋性要明顯好于Cox比例風(fēng)險(xiǎn)模型,那么,應(yīng)采用加速失效時(shí)間模型。反之亦然。但是,如果這兩模型對(duì)數(shù)據(jù)的擬合程度與可解釋性相近,那么,就必須要考慮其他的一些因素。例如,對(duì)于同一個(gè)影響因素采用相對(duì)危險(xiǎn)度來(lái)衡量其對(duì)生存時(shí)間的影響,并且,其他研究者均采用Cox比例風(fēng)險(xiǎn)模型。此時(shí),為了便于各個(gè)研究之間的比較與分析,最好還是采用Cox比例風(fēng)險(xiǎn)模型。反之,當(dāng)研究目的是為了得到更好的預(yù)測(cè)效果,并且,需要各影響因素對(duì)生存時(shí)間影響更為直觀的解釋時(shí),則采用加速失效時(shí)間模型無(wú)疑要優(yōu)于Cox比例風(fēng)險(xiǎn)模型。
到目前為止,半?yún)?shù)加速失效時(shí)間模型在參數(shù)估計(jì)、統(tǒng)計(jì)檢驗(yàn)與實(shí)際效能驗(yàn)證等方面尚不如Cox比例風(fēng)險(xiǎn)模型研究的成熟與全面,并且,缺乏可靠的、易用的統(tǒng)計(jì)軟件來(lái)實(shí)現(xiàn)半?yún)?shù)加速失效時(shí)間模型,加上,現(xiàn)在的醫(yī)學(xué)研究人員對(duì)該模型缺乏深入的了解,這些都導(dǎo)致半?yún)?shù)加速失效時(shí)間模型沒(méi)有得到廣泛的應(yīng)用,較少見(jiàn)于各種醫(yī)學(xué)研究文獻(xiàn)之中。
例11-17對(duì)例11-16的資料配合半?yún)?shù)加速失效時(shí)間模型。資料見(jiàn)表11-29。對(duì)該資料配合Cox比例風(fēng)險(xiǎn)模型后的殘差分布不對(duì)稱,大于0的殘差似乎偏多,且呈上升趨勢(shì)。這表明本例可能違背PH假定,利用半?yún)?shù)加速失效時(shí)間模型對(duì)本資料進(jìn)行分析。對(duì)每個(gè)影響因素單獨(dú)進(jìn)行單因素半?yún)?shù)AFT回歸分析,采用R統(tǒng)計(jì)軟件中的rankreg程序包擬合半?yún)?shù)加速失效時(shí)間模型。得到表11-31。由于半?yún)?shù)加速失效時(shí)間模型的參數(shù)估計(jì)與加權(quán)函數(shù)的選擇有著直接的關(guān)系,因此,為了間接排除權(quán)重函數(shù)對(duì)其參數(shù)估計(jì)的影響,將采用兩種常用的加權(quán)函數(shù),即,Gehan加權(quán)與Logrank加權(quán),對(duì)半?yún)?shù)加速失效時(shí)間模型的回歸系數(shù)同時(shí)進(jìn)行估計(jì)。如果在兩種不同加權(quán)函數(shù)的情形下,某影響因素的回歸系數(shù)的估計(jì)值相近,可以說(shuō)明該影響因素對(duì)乳腺癌患者存在著較為確切的影響;如若不然,則需要謹(jǐn)慎下結(jié)論。
由表11-31可見(jiàn),無(wú)論在Gehan加權(quán)的情形下,還是在Logrank加權(quán)的情形下,在α=0.05水準(zhǔn)上,有統(tǒng)計(jì)學(xué)意義的因素同樣為遠(yuǎn)期生活質(zhì)量評(píng)分。
表11-31 32名乳腺癌患者術(shù)后生存資料單因素半?yún)?shù)AFT模型分析結(jié)果
因此,也無(wú)須對(duì)該資料進(jìn)行多因素半?yún)?shù)AFT模型分析,僅將KPS納入到半?yún)?shù)
AFT模型之中。根據(jù)上表結(jié)果,可以認(rèn)為對(duì)乳腺癌患者生存時(shí)間有影響的因素是遠(yuǎn)期生活質(zhì)量評(píng)分。從回歸系數(shù)的符號(hào)和相對(duì)危險(xiǎn)度的大小來(lái)看,該因素是保護(hù)性因素。乳腺癌患者KPS每增加10分,術(shù)后整個(gè)生存期將延長(zhǎng)至1.40倍左右,延長(zhǎng)約40%。此研究表明遠(yuǎn)期生活質(zhì)量評(píng)分越高,其生存時(shí)間越長(zhǎng)。
本例半?yún)?shù)AFT模型表達(dá)式為:
S(t│X)= S0(te-0.011KPS)
或
S(t│X)= S0(te-0.013KPS)
表達(dá)式右側(cè)指數(shù)部分取值越大,則加速因子越大,生存時(shí)間相對(duì)越短。本例加速因子為e
-0.011KPS或e
-0.013KPS。同樣,也可按適當(dāng)?shù)募铀僖蜃訉⒂^察個(gè)體分組,正確指導(dǎo)乳腺癌患者的治療與康復(fù)。
綜上所述,從本例資料來(lái)看,無(wú)論是Cox比例風(fēng)險(xiǎn)模型,還是半?yún)?shù)AFT模型,均表明遠(yuǎn)期生活質(zhì)量評(píng)分對(duì)于乳腺癌患者術(shù)后生存起著至關(guān)重要的作用,如何有效提高遠(yuǎn)期生活質(zhì)量是乳腺癌患者術(shù)后治療與康復(fù)的關(guān)鍵性問(wèn)題。
5.生存分析應(yīng)用的注意事項(xiàng)
(1)癌癥患者的隨訪期較長(zhǎng),影響因素多,在研究期間,易引入各種混雜因素。因此,不能輕易下結(jié)論。生存分析結(jié)論的正確性往往不在于方法的選擇,更多地在于科學(xué)的研究設(shè)計(jì)與良好的質(zhì)量控制。如何保證癌癥患者生存研究的質(zhì)量與過(guò)程控制才是生存分析的真正關(guān)鍵所在。
(2)在應(yīng)用各種生存分析回歸模型時(shí),必須對(duì)各種模型的前提進(jìn)行檢驗(yàn)。例如,Cox比例風(fēng)險(xiǎn)模型的PH假定,半?yún)?shù)AFT模型的時(shí)間尺度比例假定等。這些假定都是對(duì)客觀事物的一種抽象與近似,并不是客觀存在的,應(yīng)更多地從所收集的數(shù)據(jù)出發(fā),在準(zhǔn)確把握數(shù)據(jù)特性的基礎(chǔ)之上,再?zèng)Q定采用何種模型更為合理。這就要求在進(jìn)行癌癥患者生存研究之前,必須要有對(duì)研究對(duì)象的深入了解與分析和(或)良好的預(yù)試驗(yàn),事先確定各種生存模型的備選路徑方案,而不是事后盲目選擇。
(3)在建立生存模型的過(guò)程中,除了參考統(tǒng)計(jì)方面的證據(jù)之外,應(yīng)更多地依賴于專業(yè)上的理論與可解釋性,來(lái)判斷研究是否真正滿足生存分析的假設(shè)前提,刪除或增加變量應(yīng)相當(dāng)謹(jǐn)慎。另外,為了保證生存分析的嚴(yán)密性,必須進(jìn)行生存分析模型的敏感性分析,特別是截尾對(duì)生存模型的影響,以了解所建立的模型是否具有較強(qiáng)的穩(wěn)健性。如若模型不太穩(wěn)健,則需要對(duì)整個(gè)研究重新進(jìn)行審視,而不是從統(tǒng)計(jì)上作修補(bǔ)的工作。
(陳心廣 蔣紅衛(wèi) 余松林)
天醫(yī)皮劍青朱栩諾
厲少的神秘啞妻厲沉溪舒窈
小海蒂
福運(yùn)嬌娘美又甜
做了一個(gè)關(guān)于青春的夢(mèng)
高老頭 歐也妮·葛朗臺(tái)
七零嬌氣包生存指南
漢道天下
視頻通歷史
百家姓氏