P 值:我就喜欢看你恨我又干不掉我

2016-08-29 13:26 来源:丁香园 作者:王璐
字体大小
- | +


常看文献的朋友对下面的表述一定不陌生,许多研究因为 P 值>0.05,下结论的时候只能用 trend 这个词,表示 2 者有存在差异的趋势,但尚无统计学意义,见下图
P1.png
图1氨氯地平与安慰剂相比,血管内超声检查时动脉粥祥硬化斑块进展有减少的趋势。来自: JAMA 2004,292(18)

这个时候问题就来了,得到这样的结论提示了什么?如果数据看起来有明显差异,但是 P 值却显示无统计学意义,这样的结论是否可以指导临床应用?当有统计学意义但数据差异却不明显时,该如何解读?

基于以上问题,一起来梳理一下 P 值的前世今生。

P 值是怎么来的?

实际上,在 P 值存在的 90 多年里,它一直饱受争议,有人形容它为讨人厌有赶不走的蚊子,也有人形容为存在明显问题但人人视而不见的皇帝的新衣,在 1920 年 Fisher 引入 P 值概念之初,他仅仅是想判断所得的证据是否重要,是否值得重复,而非决定性的检验方法。研究者通常假设两组间没有差异或者联系(H0 )。接着在 H0 成立的情况下,计算出实际观察结果与H0相吻合的概率即 P 值,P 值越小, H0 越不可能成立。通过这种方法将数据和背景知识结合在一起,得出科学结论。

随后 Fisher 的竞争者波兰数学家 Neyman 及英国统计学家 Pearson 引入了包含统计效能,假阳性,假阴性等概念的另一种可替代的数据分析方法。这两派立刻在学界吵得不可开交,最终他们经过协商,将 Fisher 的 P 值融入 Neyman 和 Pearson’s 的方法中,这就是 P 值小于 0.05 意味着有统计学意义这一统计学常识。

P 值到底意味着什么?

目前对于 P 值的意义仍存在争论,当一项研究的P值是0.01时,大多数科学家会说该研究结论错误的概率只有 1%, 这种说法有可能错误,因为P 值不能得出这样的结论,P 值代表的是当 H0 成立时能收集到的证据的多少,但是它不能反过来推断 H0 为真的概率。要回答一个假设正确的几率是多少,需要另一些信息,即结果本身的效力有多强,原本可信度有多大。

如果忽视这一点就如同你起床时发现头很痛,立马给自己下了脑瘤的诊断,这种诊断可能,但可能性不大,因为相比与常见的过敏反应,脑瘤需要更多的证据来证明。一些假设(如心灵感应、外星人、顺势疗法)越难以置信,假阳性的可能性就越大,不管你的P值是多少。

P 值用来证明假设成立需要多少证据,P值越小,就需要越多的证据证明H0成立,而假设本身是否为真取决于它自己是否真实可信,取决于它在现实世界中客观存在的效力。

P值怎么用?

基于上述问题,统计学家想出一个好招,在大量的计算后发现,当 P 值为 0.01 时,相对应的 H0 为假的概率至少为 11%,当 P 值为 0.05 时,相对应的 H0 为假的概率至少为 29%,所以当该研究的P值是0.01时,结论错误的概率大于 10%。而上文提及的,当结局数据有差异而P值超过0.05时,可以认为H0 为假的概率的概率增大了,即2者没有差异的概率增大了,而存在差异的概率减小了。

根据数学和统计规律,影响P值大小的最重要因素是样本量和差异大小。所以P值大小不代表差异大小。再微小的差异,达到一定的样本量和测量精度,都能得到小的P值;再大的差异,在样本量和测量精度不那么高的时候,也可能只能得到普普通通的P值。

所以在阅读文献,考虑结论是否能为临床所用时,需要综合该研究的设计类型,样本量大小等因素,开头提及的研究给出的最终结论是,有证据表明氨氯地平能减缓动脉粥样硬化的进展。许多研究数据有显著差异而统计学上P值>0.05时,一般认为可进一步扩大样本量研究,讨论研究中可能存在的误差来得出结论。重大决策与结论中,需要考虑诸多因素,如实验设计、数据质量、外部证据、假设的合理性等等,不能只由P值决定Yes or No的问题。

那当P值有意义时,怎样得出结论呢?一项超过 19000 人的研究发现相比与线下认识,在网上遇见配偶的人离婚率更低(P<0.002),对婚姻会更加满意(P<0.001)(来自: Nature http://doi.org/rcg; 2013)。这个结论看起来非常吸引眼球,但是这种作用是非常小的,在线结识使得离婚率从 7.67% 下降到 5.96%,在幸福度的 7 分量表中,在线结识为 5.64 分,线下结识是 5.48 分。

这些变化都非常小,所以也不能一味强调 P 值而忽略差异本身的大小。存在统计学的显著性差异与是否有实际关联之间并无统必然联系。我们应该关心这到底有多少作用?而不是这是否能起作用。除此之外,最荒谬的是 P 值操纵 (P-hacking),即通过许多手段方法使得 P 值<0.05 以得到阳性结论,这会使得本应带着质疑眼光审视的探索性的研究结果,变得看似确定无疑,实际上却难以重复。

关于P值的争论一直存在,有学者提出使用置信区间及贝叶斯法则等来代替P值、公布研究中包含的所有假设,所有数据收集的决定,所有进行的统计分析和所有P值等方案来提高可重复性,由于统计学方法的局限性,研究者应当避免迷信P值,慎重解释结果。

查看信源地址

编辑: 任悠悠

版权声明

本网站所有注明“来源:丁香园”的文字、图片和音视频资料,版权均属于丁香园所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:丁香园”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。同时转载内容不代表本站立场。

  • App下载