1897年,8岁的Virginia O'Hanlon写信给《纽约太阳报》求证一个问题:“世界上到底有没有圣诞老人?”这是Virginia的父亲Phillip O'Hanlon博士给孩子出的一个主意,因为“如果《纽约太阳报》给予肯定答复,那么事实就是这样”。
而现如今许多临床医生和医疗卫生专家,可能类似地盲目信任着印刷文字所呈现的“真理”,如同“《新英格兰医学杂志》(NEJM)、《美国医学会杂志》(JAMA)、《柳叶刀》(The Lancet)如此之定论,那么事实就是这样这样的”。
将所谓“圣诞老人”的求证轶事放到一边暂且不论,希腊约阿尼纳大学流行病学与卫生系John Ioannidis等认为,许多医学文献经验证是与事实存在偏倚的,事实上有的甚至是错误的。假如分析变量X与Y的统计学关系,多数人会推断认为变量X得出了Y。
然而,下面我们通过5种情况很容易地就从不同角度对上述问题进行重新解释与认识,以此类推医学文献的是与非。加拿大麦吉尔大学心内科研究员Christopher Labos博士对这个有意思的话题进行深入剖析,Medscape医学新闻对此进行了报道。现将主要内容编译如下。
1. 反向因果关系
假设变量X与Y之间有联系,那么事实上变量X导致Y、抑或是变量Y导致X皆有同等机会的可能性。在大多数情况下,哪个变量为因、哪个变量为果是显而易见的。例如,如果某研究显示“吸烟”与“冠状动脉心脏病(CHD)”之间存在统计学关系,那么推断结果很明确,就是“吸烟”导致了“CHD”,而非“CHD”促使了人们“吸烟”。
该例中因为吸烟发生在CHD之前,所以反向因果关系就不成立。但实际情况并非总是那么明确。以NEJM上所发表的一篇文章为例,该研究显示“糖尿病”与“胰腺癌”之间存在相关性,普通读者可能会得出这样的结论:“糖尿病”导致的“胰腺癌”。
然而,进一步分析则显示,许多糖尿病是于近期发病的。患者先出现的胰腺癌,肿瘤继发性破坏胰腺中产生胰岛素的胰岛细胞。因此,糖尿病不是胰腺癌的病因,却是后者为前者的病因。
这种在推断中弄错的因果关系就是“检出症候偏倚”的一种形式(备注:检出症候偏倚也称检出信号偏倚,是指某因素如能引起或促进某症状或体征出现,使患者因此而去就医,这就提高了该病的检出机会,使人误以为某因素与该病有因果联系。这种虚假联系造成的偏倚称为检出信号/症候偏倚)。
文献报道中存在大量诸如此类的例子。如对母乳喂养和生长发育迟缓之间的关联假设,实际上真实情况是反映对病重婴儿偏向于选择更长时间的母乳喂养。因此,生长发育迟缓导致了喂养时间延长,而非其他因果关系。
与之类似,口服雌激素与子宫内膜癌的发病之间就不完全是表面看起来的那种联系了。对于子宫出血的病例可能会予以口服雌激素处方,而子宫内膜癌本身就可能引起不规则出血。
因此,当患者最终确诊为子宫内膜癌时,表面看起来貌似是口服雌激素在先,癌症发病在后。但事实上却是癌症(患者未知但症状是子宫出血)促使患者就医而服用雌激素。显然,有时也难以分清哪一个因素是因、哪一个因素是果。
2. 掷骰子一般的偶然事件
随便任意一项研究,发现有两个变量X和Y之间有相关性,而实际上总是存在着这样一种可能:两者之间仅是随机发生的偶然事件,进而促成了一个关联罢了。
大多数人评估某结果是否为偶然事件时,依赖于检验统计学指标P值是否小于0.05。然而,事实上也存在多种理由可以解释单纯依赖P值解决问题的错误性。Steven Goodman围绕P值进行过精彩的综述分析(详见A dirty dozen: twelve P-value misconceptions. Semin Hematol. 2008;45:135-140),对于阅读医学文献的读者而言可谓一篇不容错过的必读文章。
为了说明这一点,以ISIS-2临床试验为例。该试验结果表明,心梗发生后给予患者阿司匹林可降低死亡率。然而,亚组分析却意外发现,那些双子座和天秤座的患者没有因此获益,其他星座的患者因服药而获益,且统计学分析显示P<0.00001。除非我们愿意重新审视一下所谓“占星学”的科学性,否则我们不得不承认这一谬误结果纯属偶然。
同样,Counsell等也通过掷3种不同颜色骰子的实验,极好地模拟了理论临床试验及其荟萃分析的结果。实验要求学生们每人掷1对骰子,6点模拟表示临床试验患者结局死亡,其他数字象征患者继续存活。同时,还告知学生们其中有一种骰子比另一种骰子“更有效”或“更无效”(就是说能掷出更多的6点,喻指临床试验研究中患者更易出现死亡)。
结果果不其然,掷红色骰子没有发现差异之处,而掷白色和绿色骰子却显示出象征39%的风险降低(P=0.02)。有的学生甚至认为他们的骰子是“灌铅的”。这一发现非常出乎意料,因为Counsell只分发给学生们普通的骰子,并跟他们开了一个玩笑而已。但掷白色和绿色骰子(象征不同偏移影响)出现的差异却是完全随机的结果。
假阳性的概率
有时想起“偶然”在统计分析中能起到如此大的影响,着实令人震撼和不安。如上所述的亚组分析就是虚假关联的典型代表。多数研究人员将检验水平定位为有统计学意义或犯1类错误的概率定位为5%。
然而,进行2项研究的分析,至少其中一次分析发生错误的概率就是9.75%;进行5项研究的分析,这一概率就为22.62%;进行10项研究分析,其中至少1次是伪关联(即使没有一项研究为真)的概率就是40.13%。
因为多数文献分出了许多不同亚组和复合终点,所以发生至少一次伪关联的可能性极高。通常情况下,当中一种伪关联作为结论发表出来,其他阴性结果将永无出头之日。
有一种方法可以用来减少出现这些错误,那就是进行“重复”操作。然而不幸的是,目前医学学术体系并不欢迎对已公布结果的重复验证研究。若干研究显示,许多已公布临床试验很可能是禁不住独立试验验证的假阳性结果。
John Ioannidis于2005年发表了一篇综述文章,对几大医学核心期刊中45项影响广泛的突出研究进行审查,结果发现其中24%没有进行重复验证,16%与后续的研究结论相左,另有16%与最初报道相比样本量更小、检验效能更弱。总体来看,不足44%的试验是经过完整重复验证的。
在某种程度上是可以估计到已发表文献中出现这些假阳性结果的概率的。假设某种情况下所有推测中有10%实际为真,现认为多数研究犯1类错误(判断存在关联性而实际上并无关联的概率,即假阳性)的概率为5%、犯2类错误(判断不存在关联性而实际上存在联系,即假阴性)的概率为20%,这是由多数临床试验设定的标准允许错误比例。这样就可以建立如下所示的二联表:
结果为真 研究 | 相关 | 不相关 | 总数 |
相关 | 真阳性 | 1类错误 | |
不相关 | 2类错误 | 真阴性 | |
总数 | 100 | 900 | 1000 |
按上述二联表插入数据:
结果为真 研究 | 相关 | 不相关 | 总数 |
相关 | 100*0.80=80 | 900*0.05=45 | 125 |
不相关 | 100*0.20=20 | 900*0.95=855 | 875 |
总数 | 100 | 900 | 1000 |
这就意味着,在125项阳性结果的研究中,仅80/125或64%是真阳性的。因此,有统计学意义的结果中有1/3为纯属偶然的假阳性。当然,上述结果是建立在假定目前讨论的这些研究为没有偏倚的。
3. 偏倚:“咖啡”、“手机”和“巧克力”研究例证
当变量X和Y之间没有真正的关联时是会出现偏倚的,但有一种是由于我们设计研究时制造出来的。Delgado-Rodriguez和Llorca发现74种最常见偏倚,大致可归纳为2大类:选择偏倚和信息偏倚。
选择偏倚的经典例子之一就是1981年发表在NEJM上的一项研究,其结果显示饮用咖啡和胰腺癌发病之间存在相关性。该研究招募对照组时出现了选择偏倚,导致对照组出现消化性溃疡病的比例很高,该组病人为了不加重病情而几乎不饮用咖啡。
由于所选对照组饮用咖啡基线水平与普通人群存在差异,所以对照组饮用咖啡和发生癌症的相关性就这样凭空造了出来。当使用合适的对照组后重复该研究时,并未发现两者间有联系。
信息偏倚与选择偏倚不同,当收集数据或测量数据存在系统误差或检验暴露因素、结局的测量方法不完美时,可发生信息偏倚。例如,吸烟者告知研究人员自己是非吸烟者,或是研究对象系统性报低或报高自身的身高情况。
有一种特殊情况称为回忆偏差,主要是调查研究对象既往的暴露情况,由于被调查者记忆失真或不完整造成结论的系统误差。
例如,INTERPHONE研究旨在调查手机与脑肿瘤之间的相关性,抽查实验组和对照组手机通话记录发现,两组研究对象出现较大且无规律的回忆偏差,其中实验组对象存在高估更长时间通话周期的情况。这样偏差很大的回忆可能导致出现手机通话和脑肿瘤存在相关性的结果,即使实际上两者并未有联系。
区群谬误是另一种有意思的信息偏倚,是指研究者用一种集群的分析单位做研究,而用非集群的分析单位作结论的现象,即使用整体人群水平的暴露情况为个别患者的风险情况下结论。类似的例子就是近期由Messerli在NEJM上发表的一篇没必要当真的文章,该研究显示具有较高巧克力消费的国家荣获诺贝尔奖居多。
其中“国家”水平的数据存在的问题在于,“国家”不吃巧克力,且“国家”不会赢得诺贝尔奖;“人”吃巧克力,“人”能荣获诺贝尔奖。这项研究尽管可以当做趣闻读一读,但该文并没有建立好立论的根本点,就是荣获诺贝尔奖的个体才是“真正吃”巧克力的人。
另一种常见的区群谬误例子就是讨论身高和死亡率之间的相关性。有大量的综述研究认为身材矮小与寿命延长有相关性。然而,其中多数研究是以国家水平数据进行讨论分析的。丹麦人平均比意大利人高,冠状动脉心脏病的发病率也更高。
然而,如果在该国观察双胞胎或个体情况,你会发现相反的关联性,即身材矮小的个体更易发生心脏病。同样,错误出在以国家整体而非个人为单位。
4. 混杂因素
不像偏倚,混杂常出现在当变量X和Y之间真正存在相关性之时,但该相关性大小受第三个变量的影响;偏倚是人为因素造成的,也是收集数据时不恰当的选择病例或错误造成的,而混杂因素是自然存在的。
例如,糖尿病是肾功能衰竭和心脏疾病之间相关性的混杂因素,因为前者可以造成后两者出现。虽然肾衰患者有发生心脏病的高危性,但若不考虑糖尿病的固有风险,则会使两者联系看起来强于真实情况。
混杂是每一项观察性临床研究普遍存在的一个问题,统计学调整并不能总是除去这一点。即使某些设计极佳的观察性研究也败在混杂因素方面上了。例如,长久以来认为激素替代疗法是女性发生心脏疾病的保护因素,直到“妇女健康倡议”随机化临床研究驳斥了这种观点。
虽然尽力进行统计学调整,但是总存在“残余混杂”(指那些混杂因素虽然经过统计学处理,但由于测量误差的存在,测量有误的那一部分混杂产生的效应仍然会歪曲暴露对结局的真实联系)。然而,简单地把更多变量放入多因素模型中并不一定是更好的办法。过度校正也是一个麻烦,这样调整非必要变量可能会导致出现偏倚结果。
真正的随机化可解决混杂问题
可以通过随机化处理混杂问题。当将研究对象纯属偶然地随机分配至一组或另一组中时,任何混杂因素(即使是未知的因素)应该均匀地分布在实验组和对照组中。然而,这是要求建立在真正随机化的基础之上的。
以1996年一项研究为例,该研究想要比较腹腔镜和开腹阑尾切除术治疗阑尾炎预后的情况。研究在白天时进展得很顺利,但在夜班期间,要求必须有行腹腔镜手术的主治医生在场,才能做腹腔镜阑尾切除术。
结果就是,值班的住院医生不想召唤他们的主治医生,因而将半透明的随机化分组信封向光处看里面分组情况,作弊识别患者是开腹手术还是腹腔镜手术。当他们发现信封里面是分配患者行开腹手术时(不需主治医生在场也更节省时间),就拆开这个信封并将其余信封放回原处,供第二天早上使用。
由于理论上在夜间接受手术的病例比可以保守等待择期第二天早上手术的病例病情更重,所以值班住院医生的作弊就使得研究结果发生了偏倚:病情更重的患者因此做法偏向于行开腹手术,使开腹手术组的预后比真实情况差得多。
因此,尽管通常认为随机化试验是解决混杂因素的好方法,但是如果没有恰当掌握好随机化过程,仍会存在混杂干扰。在这种情况下,使用不透明的随机化分组信封兴许可解决这个问题。
5. 夸大解释结果的风险
最后,让我们做一个不大可能的假设:我们要进行一项试验,其中每个细节都完美无缺,也没有出现上述所谈及的各种问题;最大的问题出现在我们对试验结果的解释上。NEJM杂志上曾有过一篇文章,结论称非裔美国人比白人行血管造影的可能性低40%。
该研究名动一时,但随后Schwartz等指出,这项研究结果被夸大了。如果研究者使用比值比代替风险比,那么该研究的结果就成为7%而非40%,因而其实这篇文章也就不会被推崇到这么瞩目的地位。
能选择正确的统计检验方法是一项较为困难工作。近20年前,Sackett等曾一度扬言声称要“打倒比值比!”然而过去这么长时间了,他们依然还在文章中用着这个统计学指标。
另一个重要问题就是使用“相对风险”还是“绝对风险”。尽管后者显然结论偏性更重些,但是一项针对约350个研究的综述分析却发现,有88%的研究选择使用“绝对风险”报道结果。
此外,过度依赖“相对风险”也可能产生误导结论。例如,Baylin等研究称,饮用咖啡后一小时内发生心肌梗死的相对风险是1.5(即风险增加50%)。该个备受瞩目的结论被Poole《至编辑读者来信》中以犀利言辞予以批驳。
Poole将1.5的相对风险度换算成绝对风险,结果就解释为“每饮用200万杯咖啡出现一次心脏事件”。显然,设计极佳的试验研究也要放在实际临床背景下解释,同时还要谨记:有统计学意义并不意味着存在临床意义。
质疑之声:何必费力进行临床试验呢?
综上所述,有人会质疑临床试验可能会出现种种错误,那么我们为何还费劲进行临床试验呢?因为我们不愿像文章开头提到的小Virginia那样,相信报纸上刊登的一切信息。我们并非愤世嫉俗,而至少应对发表的研究文章持一个质疑态度。
质疑是好事,它使我们时时挑战自以为已经证实的、众所周知的事物。倘若没有这种质疑的态度,我们可能仍旧对女性服用激素替代疗法用来预防心脏病,可能仍旧在患者心梗后使用I类抗心律失常药物,可能仍旧随随便便使用COX-2抑制剂,可能仍旧……
援引Fiona Godlee博士在BMJ上发表的一篇针对循证医学的述评总结:“这是一个有缺陷的系统,但仍是我们现有的最好的体系。”