众所周知,阳性结果的试验在论文发表上更具优势,因而在论文写作和数据处理过程中,不少研究者会下意识地选择对自己最有利的数学模型和变量处理方式,而这也逐渐成为了一种惯常的论文写作行为。但是 Helena Chmura Kraemer 博士却打破这一习惯性错误思维,严肃指出这些「陋习」可能导致科研结论错误,并以「协变量校正」为例介绍了「人为因素」对科研的不良影响。
协变量是指受试者开始试验之前(即随机化前)被测定的或观察到的,并且预期会对所分析的自变量产生影响的定性或定量变量,如年龄、体重、疾病特征或研究中心、研究者等。因此论文中的第一个表格通常是两组患者的基本特征比较,用以证明两组患者是随机取自同一群体的「相同」样本,而不是进行了匹配。
但实际情况下纳入的两组患者往往难以完全满足「相同」这一要求,协变量初始值或多或少存在着一定的差异,如果两组中某些基线值(如年龄)差异超过 5% ,研究者常在比较治疗效果时校正这些基线值以消除它们对结果的影响。但这样处理后研究就成为了验后比较(post hoc testing),即为了证明主要研究内容的结果而人为「消除」其他次要因素的影响,但这就存在次要因素本身对结果有意义却被粗暴忽视的风险。比如我们研究饮食对肥胖的影响,即将得出结论时发现两组患者的年龄存在 7% 的差异,如果我们简单地加以校正并忽略年龄的影响,粗暴地讲饮食差异结果推论到整体人群,就可能是错误的医疗结论。
事实上,所谓校正(adjust)即允许协变量根据客观事实随意变化而仅在数据统计时应用数学模型评估它们对研究结果的影响,是统计学中必不可少的一个重要环节。最正规的校正必须在试验设计时即考虑到并详细说明即将采取的校正方式,在论文写作时也必须交代清楚并计算出对结果效应的影响。
如果事先无说明而是在下结论时粗暴消除有影响的协变量,就变成了事实上对的前述的验后比较。与校正类似却不完全想同的的是控制(control),即研究者对变量的人为控制。不幸的是,很多研究者经常将它们混为一谈,从而导致研究所得效应量比较结果难以推广到整体人群。
我们以随机对照试验(RCT)来说明几效应量。通常我们在 RCT 试验把患者随机分为两组:T1、T2 组。如果两组协变量无差别无校正,那么比较结果即为总体效应量(overall effect size,overall ES),可根据结果得出 T1 组治疗方式优于 T2 组的结论。但验后比较所得的研究结果则不再是总体效应量而是协变量效应量(covariate ES),比较的是两组间某些协变量已经匹配情况下的治疗效果。而典型效应量(typical ES)则是指各协变量处于平均值时两组的治疗效果。后两者效应量原则上不可以用以证明总体效应量,如果粗暴加以推广则常常是错误的。
仅有当各协变量作用与治疗效果无关时总体效应量、协变量效应量以及典型效应量这三者才是相同的。如果各协变量间无关,校正仅仅降低结果的证据等级;如果相关,那么这三种效应量就完全不同。但无论事实上协变量与结果的关系如何,这都需要进一步的试验加以证明,在明确证明关系之前得出的结论都是危险的,缺乏说服力的。
在校正协变量时,最长使用的是协方差分析等线性模型,但采用这种数学模型的前提是协变量效应量等于典型效应量,即默认协变量对治疗效果没有影响。如果这一前提不存在,那么这些有差异的效应量会导致结论偏倚,研究难以重复,即使此时协方差分析认为样本两组间无差别也不代表总体间无差别。
当在线性模型中加入协变量与治疗效果之间的相互作用时,这些协变量编号也会影响试验结果。我们想得到的是排除所有协变量的影响(即协变量影响为 0),但不能粗暴排除。例如比较两组阿尔兹海默症患者的治疗效果,此时单一协变量是发病年龄。以发病年龄为协变量校正分析,应用线性模型就会得出阿尔兹海默症 0 岁发病时的治疗效果,而这显然是十分很可笑的。
所以协变量编号用平均发病年龄的离差(deviations from the mean age at onset)来表示,这时的治疗效果用典型效应量来衡量。这种试验结果(在本文中指治疗效果)反映的就是当协变量变化时,协变量效应量的变化程度。这种协变量效应量可能提示临床医生,哪一组的治疗反应性更好。
此外,研究者们必须对自己论文结果的真实性和有效性负责,由样本推论整体人群时必须详细说明可信区间和它的 P 值。因为有时候即使 P 值精确减小到 1*10-10,仍然没有临床或者实践意义。
评审专家和编辑也是保证研究结论正确性的重要参与者,他们必须警惕验后比较,避免根据数据结果得出结论而不是验证假设。而且也应当努力纠正部分研究者们错误坚持的「其他人都是这样校正后发表文章的」这种意识,不允许简单应用协变量校正来校正多个互相影响的共线协变量。
尽管根据目前的科研氛围和统计学水平来看,很难完全杜绝研究结果错误,但是我们可以通过努力将错误结论的比例降至 5% 左右,努力提高所有研究者对校正的认识,避免这类看似高级实则有些荒谬的推论。