经常有人打电话咨询:「审稿专家说我的**指标的标准差大于均值,不是正态分布,让我调整统计方法。」标准差大于均值似乎成为判断数据是否正态分布的「金标准」,这个这谓的「金标准」从哪里来的?那它是金标准吗?
首先看几个正态分布的直方图(用 R 产生 1000 个均值为 6、标准差为 2、4、6 的随机数字并作图)。
左侧图(红色)均值 6,标准差为 2,此时小于 0 的数值较少(理论上小于 0 的数据少于 1%)。
中间图(绿色)均值 6,标准差为 3,此时小于 0 的数值仍较少(理论上小于 0 的数据少于 2%),但明显增多。
右侧图(蓝色)均值 6,标准差为 6,此时小于 0 的数值仍较多,如果将小于 0 的数据去掉,只保留大于 0 的数据,数据呈明显偏态分布。
从上图模拟数据可以看出,正态分布数据随着标准差的变大,数据分布范围越来越大,小于 0 的数据比例也越来越多。而在临床中我们观察到的数据多数只能取正值,在这个条件下,均值 6 标准差为 2 时还是正态分布,而均值 6 标准差为 6 时去除小于 0 的数据,数据呈偏态分布。(下图为用 R 产生 1000 个均值为 6、标准差为 2、4、6 的随机数字,去除负数并作图)
因此「标准差大于均值时数据不是正态分布成立」的必要条件就是:指标只能取正值或只能取负值。而当指标既可以取正值也可以取负值时,此判断不成立。由于临床指标多数为正,这个判断多数情况下成立。这也是在没有原始数据情况下进行粗略判断的最实用的方法,因此被审稿专家所青睐。
「标准差大于均值时数据不是正态分布成立」也不太准确,从上述模拟图可以看出,当标准差大于均值的 1/2 时,数据偏态分布已经较明显。因此有的专家要求标准差要小于均值的 1/3 或 1/2。超过 1/2 时提示可能数据不是正态分布。
其次这个判断不是说标准差较小就一定是正态分布的,数据是不是正态分布,需要用直方图、茎叶图、p-p 图、Q-Q 图等进行检查。当审稿专家怀疑你的数据分布时,你首先要做的是把直方图、p-p 图画一下看看数据分布状态,如果不是正态分布,按专家意见进行修改;如果是正态分布,可以把分布图给审稿专家查看。目前,图形(包括直方图、茎叶图、p-p 图、Q-Q 图等)是验证是否正态分布的金标准。