作者:林党新 许 涛* 沈念春* 赖 胜** 邓政伟** 作者单位:(广东省茂名市电白县树仔镇卫生院 茂名525400)
【摘要】 目的:通过幽门螺杆菌与胃癌癌前病变关系研究的资料,探讨单独二分类Logit模型中有序分类资料中的应用。方法: 选择293名患有轻度萎缩性胃炎的患者,对病变进展的影响因素分析分别采用累积比数Logit模型和单独的二分类Logit模型,并对两种模型的分析结果进行比较。结果:累积比数Logit模型分析结果显示幽门螺杆菌感染对胃癌癌前病变的影响无统计学意义(OR=1.158,95%CI:0.986~2.464),但得分检验发现幽门螺杆菌不满足累积比数Logit模型的比例优势假定条件(χ2=24.100,P<0.0001),故采用单独的二分类Logit模型进一步分析。结果表明,幽门螺杆菌阳性者比阴性者有更高的危险至少进展到重度萎缩性胃炎(OR=2.334,95%CI:1.402~3.885)。结论:幽门螺杆菌感染主要作用于胃癌癌前病变的早期阶段。对于有序分类资料的分析,选用模型时应注意其应用条件,若条件不满足最好换用其它更为恰当的方法。
【关键词】 胃癌癌前病变; 幽门螺杆菌; 累积比数Logit模型; 单独的二分类Logit模型
有序分类资料最常用的分析方法是累积比数Logit模型[1],对多分类有序反应资料,如果采用一般的二分类Logit模型,而不是累积比数Logit模型,只能获得50%~70%的检验效能[2],说明在处理有序分类数据方面,累积比数Logit模型要优于二分类Logit模型。近几年累积比数Logit模型在国内应用领域有所增多,但不少忽略了模型的使用条件,盲目套用,以致影响所得结论的可靠性。本研究通过累积比数Logit模型在实际数据分析中的应用,说明了忽视模型应用条件所产生的后果,并介绍了如何选择恰当的分析方法。
1 资料与方法
1.1 资料来源
资料来源于1项茂名市某医院的队列研究数据,该研究选择了360名轻度慢性萎缩性胃炎(CAG)患者,根据他们的幽门螺杆菌(Hp)感染情况分为阴性组和阳性组两组人群,随访3年后重新进行病理学诊断,观察他们的病变情况。
1.2 胃黏膜病理诊断
用胃内窥镜观察胃黏膜病变,并在胃体大小弯、胃角、胃窦大小弯、前后壁各取胃黏膜活检组织1块。病理切片照全国胃、十二指肠活检、病理诊断标准进行诊断。每个受检对象以最严重病变为第一诊断。
1.2 统计分析方法
累积比数Logit模型的形式为[3]:Logit(P(Y≤k|X))=ln(P(Y≤k|x)1-P(Y≤k|x))=ak-pi=1βixi ,k=1,2,…,K-1。 (1)反应变量Y为K个等级的有序变量,第k(k=1,2,…,K)类的概率分别为{π1,π2,…,πk},且Kk=1πk=1 。影响因素xT=(x1,x2,…,xP)为解释变量,xi(i=1,2,…,p)可以是连续变量、无序或有序分类变量。则该模型实际上是将K个等级人为地分成{1,…,k }和{k+1,…,K}两类,在这两类基础上定义的Logit P表示属于前k个等级的累积概率(P(Y≤k|x))与后K-k个等级的累积概率(1-P(Y≤k|x))的比数之对数。故该模型称为累积比数模型,其应用有一个基本的假定条件,即比例优势假定(proportional odds assumption)。这一条件要求自变量的回归系数应与分割点k无关,换句话说,无论从哪一点分类,对所有的累积logit,变量xk都有一个相同的βk估计。
单独的二分类logit模型(separate binary logistic modes)主要是把反应变量按照不同分割点合并为不同的二类,然后分别进行二分类的Logistic回归分析[4]。本研究中的反应变量为随访5年后的病变,分为轻度CAG、重度CAG、肠上皮化生(IM)、不典型增生(DYS)共4类,有3个分割点,故定义为3个二分类Logit:一是将IM、重度CAG和轻度CAG合并,即{DYS}VS{IM,重度CAG,轻度CAG},表示至少进展到DYS;二是将DYS和IM合并,重度CAG和轻度CAG合并,即{DYS,IM}VS{重度CAG,轻度CAG},表示至少进展到IM;三是将DYS、IM和重度CAG合并,即{DYS,IM,重度CAG}VS{轻度CAG},表示至少进展到重度CAG。然后以上述分类分别作3次二分类的logistic回归分析。整个分析过程均由SAS 8.2(SAS Institute, Cary,N.C.)来完成[5]。
2 结果
经3年随访后,共67人因各种原因失访,293人具有可供分析的完整资料。其中,118人病变仍为轻度CAG,91人进展为重度CAG,49人进展为IM,35人进展为DYS。具体进展情况见表1。
累积比数Logit模型分析结果表明(表2),除性别因素外,其他因素对胃癌癌前病变的影响均无统计学意义。但从得分检验(score test)结果来看(表3),Hp不满足比例优势假定条件(χ2=24.100,P<0.0001),也就是说,在反应变量的不同分割点上,Hp的估计值不同。由于基本假定条件违背,该资料采用累积比数Logit模型分析未必合适。表1 293人随访5年后的病变进展情况表2 累积比数Logit模型的参数估计结果表3 比例优势假定检验结果
为了核实结果的正确性,并充分利用该资料有序的特点,故采用单独的二分类Logit模型进一步分析(表4),可以看出,年龄、性别、吸烟、饮酒这四个变量在不同分割点的OR值相差不大,而Hp的OR值则差别很大。把DYS、IM和重度CAG合并为一类(即“至少进展为重度CAG”)时,Hp的影响有统计学意义(OR=2.334,95%CI:1.402~3.885)。而对“至少进展到DYS”和“至少进展到IM”的影响则无统计学意义。表4 单独二分类Logit模型分析结果
3 讨论
本次研究结果显示,年龄、性别、吸烟、饮酒对胃癌癌前病变的进展无影响。在校正上述因素的影响后,Hp感染主要作用于胃癌癌前病变的早期阶段,Hp阳性者至少进展到重度CAG的可能性是Hp阴性者的2.334倍(OR=2.334,95%CI:1.402~3.885),而对进展到更高级的病变如IM、DYS,则Hp阳性与阴性并无差别。这与有学者提出的Hp主要作用于胃癌癌前病变的早期阶段的结论是一致的[6,7]。
累积比数Logit模型是分析有序分类资料最常用的方法,但其应用需要满足一定的条件,其中一个基本条件就是比例优势假定条件,即自变量的回归系数应与分割点k无关。对于一个自变量xk而言,不同累积比数发生比的回归线相互平行,只是截距参数有所差别。以往有人认为,累积比数Logit模型对这一条件并不敏感,但在实际中,这一条件不满足往往容易导致错误的结论,本研究即证明了这一点。Ralf也曾对这一问题进行了探讨[8],并指出,如果不满足比例优势假定条件,最好采用单独的二分类Logit模型进行分析,否则做出的结论往往给人以误导甚至是毫无意义的。本研究发现资料不满足比例优势假定条件,因此采用了简单且易于理解的单独的二分类Logit模型进一步分析。结果表明,尽管Hp对进展到更高级的病变(IM、DYS)无影响,但对至少进展到重度CAG的影响有统计学意义,即Hp主要作用于胃癌癌前病变的早期阶段。如果忽略比例优势假定条件的检验,接受累积比数Logit模型的分析结果,便会得出相反的结论。
当有序分类资料不满足比例优势假定条件时,还有其它一些方法可供选择[9],如stereotype模型、偏比例优势模型(partial proportional odds models)等[10]。这些方法都是基于累积Logits计算的,因而可与单独的二分类Logit模型直接比较,但其计算过程繁琐,且结果的解释不如单独的二分类Logit模型易于理解。多项Logit模型(polytomous logits models)是基于广义Logits计算的,其计算过程和结果解释均与单独的二分类Logit模型不同,因而二者不可直接比较,一般也不作为比例优势假定条件不满足时的首选方法。
总之,对于有序分类资料的分析,应先看其是否满足模型的使用条件,如不满足,最好换用其它更为合适的方法。本次研究一开始采用累积比数Logit模型分析,结果显示Hp对胃癌癌前病变的影响无统计学意义,这实际上是由于Hp不满足比例优势假定条件所致。在利用单独的二分类Logit模型作进一步详细分析后,则可以发现,Hp阳性者至少进展到重度CAG的危险显著高于Hp阴性者。
【参考文献】 1 McCullagh P.Regression Models for Ordinal Data (with Discussion). J.R.Stat Soc,1980,42:109.
2 BG Amstrong,M Sloan.Ordinal Regression Models for Epidemiologic Data.Am J of Epidemiology,1989,129:191~204.
3 Ludwig Fahrmeir,Gerhard Tutz.Multivariate Statistical Modeling Based on Generalized Linear Models.Beijing:World Publishing Cooperation,1998,75~79.
4 Ralf Bender,Ulrich Grouven.Using Binary Logistic Regression Models for Ordinal Data with Non-proportional Odds.Journal of Clinical Epidemiol,1998,51:809~816.
5 Ralf Bender,Axel Bender.Calculating Ordinal Regression Models in SAS and SPlus.Biometrical Journal,2000,42:677~699.
6 Kunio Takeuchi, Yoshihiro Ohno, Yasushi Tsuzuki, etc. Helicobacter pylori Infection and Early Gastric Cancer.J Clin Gastroenterol, 2003,36:321~324.
7 夏志伟,林三仁.幽门螺杆菌与胃癌.幽门螺杆菌感染的基础与临床(修订版).北京:中国科学技术出版社, 2002, 172~178.
8 Ralf Bender,Ulrich Grouven.Ordinal Logistic Regression in Medical research.Journal of the Royal College of Physicians of London,1997,31:546~551.
9 R Lall,MJ Campbell.A Review of Ordinal Regression Models Applied to Healthrelated Quality of Life Assessments.Statistical Methods in Medical Research,2002,11:49~67.
10 Peterson B, Harrell F. Partial proportional odds model for ordinal response variables. Applied statistics,1990,39: 205~217. |