标准差大于均值 数据就不是正态分布吗?

2016-08-25 11:22 来源:临床流行病学和循证医学 作者:张华 赵一鸣
字体大小
- | +

经常有人打电话咨询:「审稿专家说我的**指标的标准差大于均值,不是正态分布,让我调整统计方法。」标准差大于均值似乎成为判断数据是否正态分布的「金标准」,这个这谓的「金标准」从哪里来的?那它是金标准吗?

首先看几个正态分布的直方图(用 R 产生 1000 个均值为 6、标准差为 2、4、6 的随机数字并作图)。

11.png

左侧图(红色)均值 6,标准差为 2,此时小于 0 的数值较少(理论上小于 0 的数据少于 1%)。

中间图(绿色)均值 6,标准差为 3,此时小于 0 的数值仍较少(理论上小于 0 的数据少于 2%),但明显增多。

右侧图(蓝色)均值 6,标准差为 6,此时小于 0 的数值仍较多,如果将小于 0 的数据去掉,只保留大于 0 的数据,数据呈明显偏态分布。

从上图模拟数据可以看出,正态分布数据随着标准差的变大,数据分布范围越来越大,小于 0 的数据比例也越来越多。而在临床中我们观察到的数据多数只能取正值,在这个条件下,均值 6 标准差为 2 时还是正态分布,而均值 6 标准差为 6 时去除小于 0 的数据,数据呈偏态分布。(下图为用 R 产生 1000 个均值为 6、标准差为 2、4、6 的随机数字,去除负数并作图)

22.png

因此「标准差大于均值时数据不是正态分布成立」的必要条件就是:指标只能取正值或只能取负值。而当指标既可以取正值也可以取负值时,此判断不成立。由于临床指标多数为正,这个判断多数情况下成立。这也是在没有原始数据情况下进行粗略判断的最实用的方法,因此被审稿专家所青睐。

「标准差大于均值时数据不是正态分布成立」也不太准确,从上述模拟图可以看出,当标准差大于均值的 1/2 时,数据偏态分布已经较明显。因此有的专家要求标准差要小于均值的 1/3 或 1/2。超过 1/2 时提示可能数据不是正态分布。

其次这个判断不是说标准差较小就一定是正态分布的,数据是不是正态分布,需要用直方图、茎叶图、p-p 图、Q-Q 图等进行检查。当审稿专家怀疑你的数据分布时,你首先要做的是把直方图、p-p 图画一下看看数据分布状态,如果不是正态分布,按专家意见进行修改;如果是正态分布,可以把分布图给审稿专家查看。目前,图形(包括直方图、茎叶图、p-p 图、Q-Q 图等)是验证是否正态分布的金标准。

查看信源地址

编辑: 王璐

版权声明

本网站所有注明“来源:丁香园”的文字、图片和音视频资料,版权均属于丁香园所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:丁香园”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。同时转载内容不代表本站立场。