P 值：我就喜欢看你恨我又干不掉我

2016-08-29 13:26 来源：丁香园作者：王璐

字体大小

- | +

常看文献的朋友对下面的表述一定不陌生，许多研究因为 P 值>0.05，下结论的时候只能用 trend 这个词，表示 2 者有存在差异的趋势，但尚无统计学意义，见下图

图1氨氯地平与安慰剂相比，血管内超声检查时动脉粥祥硬化斑块进展有减少的趋势。来自： JAMA 2004,292(18)

这个时候问题就来了，得到这样的结论提示了什么？如果数据看起来有明显差异，但是 P 值却显示无统计学意义，这样的结论是否可以指导临床应用？当有统计学意义但数据差异却不明显时，该如何解读？

基于以上问题，一起来梳理一下 P 值的前世今生。

P 值是怎么来的？

实际上，在 P 值存在的 90 多年里，它一直饱受争议，有人形容它为讨人厌有赶不走的蚊子，也有人形容为存在明显问题但人人视而不见的皇帝的新衣，在 1920 年 Fisher 引入 P 值概念之初，他仅仅是想判断所得的证据是否重要，是否值得重复，而非决定性的检验方法。研究者通常假设两组间没有差异或者联系（H0 ）。接着在 H0 成立的情况下，计算出实际观察结果与H0相吻合的概率即 P 值，P 值越小， H0 越不可能成立。通过这种方法将数据和背景知识结合在一起，得出科学结论。

随后 Fisher 的竞争者波兰数学家 Neyman 及英国统计学家 Pearson 引入了包含统计效能，假阳性，假阴性等概念的另一种可替代的数据分析方法。这两派立刻在学界吵得不可开交，最终他们经过协商，将 Fisher 的 P 值融入 Neyman 和 Pearson’s 的方法中，这就是 P 值小于 0.05 意味着有统计学意义这一统计学常识。

P 值到底意味着什么？

目前对于 P 值的意义仍存在争论，当一项研究的P值是0.01时，大多数科学家会说该研究结论错误的概率只有 1%, 这种说法有可能错误，因为P 值不能得出这样的结论，P 值代表的是当 H0 成立时能收集到的证据的多少，但是它不能反过来推断 H0 为真的概率。要回答一个假设正确的几率是多少，需要另一些信息，即结果本身的效力有多强，原本可信度有多大。

如果忽视这一点就如同你起床时发现头很痛，立马给自己下了脑瘤的诊断，这种诊断可能，但可能性不大，因为相比与常见的过敏反应，脑瘤需要更多的证据来证明。一些假设（如心灵感应、外星人、顺势疗法）越难以置信，假阳性的可能性就越大，不管你的P值是多少。

P 值用来证明假设成立需要多少证据，P值越小，就需要越多的证据证明H0成立，而假设本身是否为真取决于它自己是否真实可信，取决于它在现实世界中客观存在的效力。

P值怎么用？

基于上述问题，统计学家想出一个好招，在大量的计算后发现，当 P 值为 0.01 时，相对应的 H0 为假的概率至少为 11%，当 P 值为 0.05 时，相对应的 H0 为假的概率至少为 29%，所以当该研究的P值是0.01时，结论错误的概率大于 10%。而上文提及的，当结局数据有差异而P值超过0.05时，可以认为H0 为假的概率的概率增大了，即2者没有差异的概率增大了，而存在差异的概率减小了。

根据数学和统计规律，影响P值大小的最重要因素是样本量和差异大小。所以P值大小不代表差异大小。再微小的差异，达到一定的样本量和测量精度，都能得到小的P值；再大的差异，在样本量和测量精度不那么高的时候，也可能只能得到普普通通的P值。

所以在阅读文献，考虑结论是否能为临床所用时，需要综合该研究的设计类型，样本量大小等因素，开头提及的研究给出的最终结论是，有证据表明氨氯地平能减缓动脉粥样硬化的进展。许多研究数据有显著差异而统计学上P值>0.05时，一般认为可进一步扩大样本量研究，讨论研究中可能存在的误差来得出结论。重大决策与结论中，需要考虑诸多因素，如实验设计、数据质量、外部证据、假设的合理性等等，不能只由P值决定Yes or No的问题。

那当P值有意义时，怎样得出结论呢？一项超过 19000 人的研究发现相比与线下认识，在网上遇见配偶的人离婚率更低（P＜0.002），对婚姻会更加满意（P＜0.001）(来自： Nature http://doi.org/rcg; 2013)。这个结论看起来非常吸引眼球，但是这种作用是非常小的，在线结识使得离婚率从 7.67% 下降到 5.96%，在幸福度的 7 分量表中，在线结识为 5.64 分，线下结识是 5.48 分。

这些变化都非常小，所以也不能一味强调 P 值而忽略差异本身的大小。存在统计学的显著性差异与是否有实际关联之间并无统必然联系。我们应该关心这到底有多少作用？而不是这是否能起作用。除此之外，最荒谬的是 P 值操纵 (P-hacking)，即通过许多手段方法使得 P 值＜0.05 以得到阳性结论，这会使得本应带着质疑眼光审视的探索性的研究结果，变得看似确定无疑，实际上却难以重复。

关于P值的争论一直存在，有学者提出使用置信区间及贝叶斯法则等来代替P值、公布研究中包含的所有假设，所有数据收集的决定，所有进行的统计分析和所有P值等方案来提高可重复性，由于统计学方法的局限性，研究者应当避免迷信P值，慎重解释结果。

查看信源地址

编辑：任悠悠

版权声明

本网站所有注明“来源：丁香园”的文字、图片和音视频资料，版权均属于丁香园所有，非经授权，任何媒体、网站或个人不得转载，授权转载时须注明“来源：丁香园”。本网所有转载文章系出于传递更多信息之目的，且明确注明来源和作者，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。同时转载内容不代表本站立场。

os

os

os

os

os

关注频道微博

快速获悉最新信息

App下载

下载医学时间

每天10分钟成学霸
X
关注我们

手机扫一扫

关注丁香园微信号

胸外	肾内	风湿免疫	感染
呼吸	消化	内分泌	PUBMED
药品汇	健康互联	丁香六度	会议
医疗器械	检验	妇产	儿科
泌尿	麻醉	影像	普外
整形	眼科	神外	医院汇
精神	皮肤	口腔	重症
耳鼻喉	康复	丁香公开课	超声
血液

P 值：我就喜欢看你恨我又干不掉我

版权声明

丁香园旗下网站

关于丁香园

官方链接