如果在统计学上X事件变量与Y事件变量存在相关性,那么很多人会想当然的认为X事件造成或引起了Y事件,但是事实并非如此。来自Medscape的一篇报道着重分析了5种可能造成这种“似是而非”现象的原因。
1.反向因果关系
事实上,当统计结果显示X事件变量与Y事件变量存在相关性时,“因X而出现Y”与“因Y而出现X”是在假设效力上是等价的。多数情况,人们可以一眼看出两者关系,比如吸烟与冠心病之间的相关性问题上,肯定是吸烟可能加剧冠心病,反向关系几乎不可能。
但是,确实存在一些X与Y因果关系不明确的情况,例如,NEJM杂志曾经有一个研究关注糖尿病与胰腺癌的关系,乍一看应该是糖尿病促进了癌症进展,但实际情况是糖尿病后于癌症——胰腺癌破坏了大量胰岛细胞,造成了糖尿病。
反向因果关系涉及到流行病学研究中一个普通存在的问题——偏倚,具体来说,这种因果关系倒置是一种特发性偏倚(protopathic bias)。例如,探索母乳喂养和发育不良关系时,研究者发现越是虚弱的婴儿,其需要哺乳时间越长,因此发育不良导致母乳摄入量增加。
类似的还有口服雌激素与子宫内膜癌关系研究,先入为主的观念告诉我们前者是因,实际情况是患者因子宫出血而服用口服激素,而出血可能由未被诊断出的子宫内膜癌引起。这也就解释了当癌症确诊时,给人的错觉是雌激素口服在先。
2.随机因素
每当一个研究指出X与Y相关性时,有可能是随机因素造成了这种相关性。
很多人习惯采用P值检测法来判断相关性是否因随机因素引起,但是研究指出,在许多情况下,P值检测法并不适用(参考文献A Dirty Dozen: Twelve P-Value Misconceptions)。
我们以ISIS-2研究为例,该研究显示心梗后服用阿司匹林可以减低患者死亡率。但是一些亚组患者却没有收益——双子座和天秤座患者,P小于0.0001。我们可以一眼看出这是由于随机因素导致的错误结果。
另一个同样有趣的试验中,研究者使用3个不同颜色的骰子来模拟临床试验或meta分析结果。在试验中,研究者一次投出两个同色骰子,若点数相加为6,则定义患者死亡,否则生存。研究结果显示绿色骰子组与白色骰子组风险率显著降低(P=0.02),而这明显是因随机因素造成的。
换句话说,随机因素可以造成假阳性结果。多数研究者将其1型容错率设置在5%,但是如果研究涉及到多个亚组分析,随机因素的作用就被大大放大,例如,同时开展2个亚组分析,至少一个研究受随机因素影响的概率为9.75%,而5个亚组时概率高达22.62%。
如果我们进行10次统计,按照上述P值标准,即使10个相关性都是假命题,但是实际统计中,研究者仍有40.13%的可能性得到一个虚假相关性。而多数研究包含多个亚组分析及不同的终点事件指标,那么随机因素造成虚假相关性的可能性显著升高。
可悲的是,一旦这种虚假相关性发表后,那么其他阴性研究结果很难再有出头之日。消除这种随机因素的方法很简单——重复试验、验证结果。相关统计结果显示,相当一部分研究的结果不是经不起重复验证,就是无法重复。
我们可以试着估计一下发表文献中假阳性的概率。我们假设所有命题中有10%是真命题,然后假定多数研究1型错误容错率α为5%,2型错误β为20%。通过简单的2X2表格分析,我们就能发现如果有125个阳性结果试验,只有64个研究结果可信。
换句话说,约有三分之一阳性结果实际是假阳性,而且前提还是不存在偏移(下文述及)
3.偏倚
当变量X与变量Y不存在相关性时,存在的偏移或改变最终的结果,而我们开展研究的方法往往是造成偏移的原因之一。偏倚大致可分为选择偏倚与信息偏倚。
选择偏倚的经典例子莫如1981年NEJM发表的一篇关于咖啡与胰腺癌的研究。该研究在入组对照组时产生了选择偏倚——对照组患者有较高的消化道溃疡发病率,为了避免加剧其症状,该组患者几乎不喝咖啡,因此,该研究对照组无法代表一般人群的咖啡摄入水平。
信息偏倚来自研究数据收集及分析中产生的系统误差,而对于预后或暴露因素的不充分测量易产生错分偏倚。比如吸烟者声称自己不吸烟,入组患者错报自己体重情况。
回忆偏倚是一种特殊类型的偏倚,指的是罹患某病的患者比对照组患者更容易回忆起暴露因素。例如INTERPONE研究在观察手机使用与脑部肿瘤时就发现,无论是对照组还是实验组,患者都高估了自己已往手机使用情况。
生态谬误是另一个有趣的偏倚类型,指的是人们错误的认为人群水平的因素暴露情况适用于个体患者风险评估。例子就是NEJM发表的一篇关于巧克力与诺贝尔奖的研究,研究指出人们吃巧克力从而更可能得诺奖,实际情况应反过来——这些诺奖得主在吃巧克力。
还有一种生态谬误是关于身高与寿命——越矮的人,活的越久。但是研究者仅从国家水平的数据去分析,忽视了个体水平的分析,所以得出了这种荒谬的结论。
4.混杂因素
不同于偏倚,混杂因素存在于两变量具有相关性的时候,且可以改变两者相关性强度。另一方面,偏倚是“人造物”,而混杂因素是“自然的礼物”。
例如,由于糖尿病可以引起肾衰与心脏病,所以其混杂了肾衰与心脏病的关系。当研究者评估两者相关性时,如果不考虑糖尿病的固有风险,其相关性将被大大高估。
混杂因素是所有研究与生俱来的,很难完全清除。我们可以通过统计学调整规避这种影响,但是不必要变量的过度调整会再造成偏倚。
这时候我们需要通过随机化来消除混杂因素。当每组元素都是在完全随机的条件下分配入组的,那么其混杂因素也是均匀分布的。前提是研究接受随机化处理是合理有效的。
5.风险夸大
现在,让我们做个假设——如果我们顺利的闯过了前四关,最大的危险依然存在,使我们曲解研究数据。曾有研究指出黑人接受血管造影的可能性比白人低40%,引起轩然大波,但实际上如果该研究用风险比代替比值比,数据急降至7%。
上述问题说明最后关头,选择正确的统计工具十分重要。就比值比问题而言,早在20年前就有研究者呼吁“放弃比值比”,但是这么多年过去了,人们还在使用这个指标。
“相对风险VS绝对风险”是风险夸大另一个原因,虽然绝对风险更为实用,但是有研究显示大多数研究不使用该指标。另一方面,对于相对风险的过度依赖造成了数据误读。
例如,有研究指出喝一杯咖啡后一小时内心梗相对风险为1.5(风险升高50%),而有读者尖锐评判了该研究的统计方式——如果将1.5相对风险换算为绝对风险,等效于喝两百万杯咖啡引起一次心梗。这也告诉我们有统计学意义的结果不一定有临床意义。
结语
上述这些因素确实会造成研究出现偏差,因此我们一方面在以后的研究中尽力消除这些负面影响,一方面也早保持一种怀疑态度,证实这种质疑促进了科学的进步。正如BMJ杂志说的那样“虽然循证医学存在缺陷,但这是我们现在拥有的最好的研究体系。”