几种常见的滥（乱）用卡方检验的情况

2014-06-16 19:41 来源：科研时间微信作者：

字体大小

- | +

卡方检验是医学科研中最常用的统计学方法之一，主要用于对分类资料进行比较分析。笔者粗略估计，医学期刊上刊登的临床研究类论文中，70%以上会使用该统计方法对数据进行分析。然而，在医学期刊，特别是国内期刊上刊登的论文中，滥（乱）用卡方检验的情况十分普遍、屡见不鲜。

在此，笔者拟就常见的滥（乱）用卡方检验的情况进行总结、概括和辨析，以帮助大家正确使用卡方检验。

1、处理四格表数据时不考虑样本量和最小理论频数而直接采用卡方检验

处理四格表数据是卡方检验最为常见的用途之一，其目的在于分析“构成比”或者“率”上的差异是否具有统计学意义。对于四格表数据，使用卡方检验的条件为样本量大于40，且最小理论频数应大于5。对于某些小样本的、或者指标阳性率较低的研究，总样本量可能小于40，最小理论频数也可能小于5，此时应该采用Fisher确切概率法进行分析。

比如某研究需比较小细胞肺癌和非小细胞肺癌内某个基因的表达情况的差异是否有统计学意义，得出如下四格表：

该研究的样本量仅为30个，且最小理论频数为（12×9）/30＝3.6，所以应该采用Fisher确切概率法进行分析。实际上，从理论上讲，若要分析四格表数据中的构成比或者率之间的差异是否有统计学意义，Fisher确切概率法的结果是最可靠的。若是使用软件对数据进行分析，不论样本量和最小理论频数，均可采用Fisher确切概率法。

2、不考虑分析目的、设计类型而盲目套用卡方检验

有的四格表资料本身是配对的，且研究的目的主要是回答“一致性”或者“不一致性”的问题，此时就不应该用卡方检验对数据进行分析。比如：某研究者发明了一种新的HIV检测法，并且用该法和免疫印迹法（检测HIV感染的“金标准”）同时检测了100份血清，得到如下四格表数据：

该研究在设计上与表1中的研究最大的区别在于“配对”，即同一样本分别接受了新方法检测和免疫印迹法（金标准）的检测。研究者最关心的问题应该是“新方法和金标准之间的一致性”问题，若采用卡方检验进行分析，得出的结论是“免疫印迹法检测结果的频数分布在新方法阳性组和阴性组中是不同的”，这一结论显然并无多大专业价值。

对于此类研究，可以采用两种方法进行统计，一是采用Mcnemar χ2检验公式计算两种方法不一致的部分是否具有统计学意义；二是采用Kappa检验分析两种结果之间的一致性。

需要说明的是，此类研究中的一种方法必须是金标准，否则研究可能没有价值。以表2中的数据为例，若免疫印迹法并非检测HIV感染的金标准，两种方法的一致性即使好得一塌糊涂，也可能无济于事。

因为一个显而易见的问题是：这两种方法可能都是错误的检测方法。比如：采用金标准对100份血清进行检测后，其中90例为阳性，而不论是新方法还是免疫印迹法，均仅仅检测出了55个阳性样本，漏检率显然太高。

3、误用卡方检验处理等级资料

等级资料的表示方法与分类资料相似，因此受“定式思维”的影响，部分同行“习惯性”地采用卡方检验对等级资料进行处理，这也是医学期刊上最常见的滥（乱）用卡方检验的行为。卡方检验回答的问题仅仅是“构成比”或者“率”上的差异是否具有统计学意义，而不能回答效应指标的强度高低问题。比如某研究比较了两类人群胰腺癌分期的分布状况，如下表所示：

此类数据的一个显著特点是胰腺癌的分期（Ⅰ、Ⅱ、Ⅲ、Ⅳ期）是一个等级资料，研究者的研究目的是分析甲乙两群人胰腺癌的分期是否有差别，是一个强度“分期早晚”的问题，而不是“构成比”的差异。若用卡方检验处理此类数据，得出的结论就是“甲乙两类人群胰腺癌分期构成比上的差异是否具有统计学意义”，而无法明确“孰高孰低”的问题。

以上述表格为例，卡方检验结果显示有统计学意义，但问题在于：根据表中数据，人群甲以Ⅰ期和Ⅳ期为主，人群乙以Ⅱ期和Ⅲ期为主，让人完全无法判断两类人群的疾病分期“孰早孰晚”的问题。

处理此类数据的一般方法是将分期进行秩转换，然后以秩和检验进行统计分析，也可以直接采用Riddit分析进行统计。

4、对于多组资料反复使用卡方检验进行比较

又是研究者面对的数据可能有多行或者多列（R×C资料），研究者需要逐一比较各组数据的差异是否有统计学意义。比如某研究者对不同血型的个体患乙型肝炎的情况进行了调查，得出如下数据：

这是一个率的比较问题，研究目的主要在于分析各个血型的人群HBV感染的发病率是否相同。处理此类数据，一般是直接采用卡方检验从整体上分析各组人群率（构成比）上的差异是否具有统计学意义；若具有统计学意义，则根据研究目的进一步觉得是否进行组间的比较。

以本研究为例，研究者可能还需要逐一比较各组HBV感染的发病率之间的差异是否具有统计学意义。处理此类数据时，最容易犯的一类错误就是将表格进行拆分成六个四格表反复采用卡方检验进行统计分析。实际上，这种错误的统计学方法类似于“反复使用t检验比较多组资料”，会增大Ⅰ类误差的概率。正确的做法应该是采用卡方分割法，通过改校正验水准的方式来进行两两比较。

需要说明的是，在整体比较之后是否需要进行两两比较，如何进行两两比较在很大程度上取决于专业需要，或者说研究目的，特别是分组因素的“属性”是否相同。比如某研究欲分析了基因A在类风湿性关节炎中的表达情况（基因表达情况以阳性和阴性进行描述），除了健康对照外，研究者还设立了疾病对照组，包括系统性红斑狼疮和干燥综合症。

研究者得到了如下表格：

研究者的目的主要是探讨A基因在类风湿性关节炎中的表达与健康个体是否存在差异，进而研究A基因在类风湿性关节炎发病机制中的作用。设立系统性红斑狼疮组和干燥综合征组的目的仅仅是为了验证该基因是否是特异性地参与了类风湿性关节炎的发病机制。

因此在进行两组比较时，仅仅需要将三种自身免疫性疾病分别与健康对照组比较即可（与计量资料方差分析之后的Dunnett-t检验有些类似），至于自身免疫性疾病之间的比较，并无多大专业价值。

5、结语

本文初步分析了几种常见的滥（乱）用卡方检验的情况，限于篇幅以及笔者水平所限，一些较为复杂的、少见的滥（乱）用卡方检验的行为不再一一赘述。

实际上，在统计学家眼里，本文的观点多已是很基础的、老生常谈的话题，甚至并无成文的价值。之所以将这些问题重新总结成文，只是有感于部分同行在分析数据时不分青红皂白地滥（乱）用卡方检验处理数据，得出一番令人啼笑皆非的统计学结果之后还全然不知。

希望读者阅毕本文后，在一笑而过的同时，能若有所思。

笔者：胡志德，AME学术沙龙委员、Section Editor (Systematic Review and Meta-analysis)，工作于济南军区总医院实验诊断科，现为第二军医大学临床检验诊断学博士研究生，以第一作者或通讯作者身份发表SCI论文十余篇，并获得国家青年科学基金一项。

本文来自科研时间微信

查看信源地址

编辑：赵双

版权声明

本网站所有注明“来源：丁香园”的文字、图片和音视频资料，版权均属于丁香园所有，非经授权，任何媒体、网站或个人不得转载，授权转载时须注明“来源：丁香园”。本网所有转载文章系出于传递更多信息之目的，且明确注明来源和作者，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。同时转载内容不代表本站立场。

os

os

os

os

os

关注频道微博

快速获悉最新信息

App下载

下载医学时间

每天10分钟成学霸
X
关注我们

手机扫一扫

关注丁香园微信号

胸外	肾内	风湿免疫	感染
呼吸	消化	丁香公开课	检验
医疗器械	血液	超声	康复
耳鼻喉	重症	口腔	皮肤
精神	医院汇	神外	眼科
整形	普外	影像	麻醉
泌尿	儿科	妇产	会议
丁香六度	健康互联	药品汇	PUBMED
内分泌