Science:小白鼠误导我们了吗?

2013-12-10 22:53 来源:lifeomics 作者:筱 玥
字体大小
- | +

长期以来,动物实验和人体临床试验之间一直存在不相符的情况,有人认为开展动物实验的科研人员们应该采用更严格的规范制度,和更好的统计分析方法来确保试验结果的可靠性。

有3只小白鼠不见了,不过ULRICH Dirnagl感觉自己应该知道这些小家伙跑哪里去了。它们一定是在垃圾箱里,那里还有很多小白鼠,最开始都是用来做实验的,可是试验还没有结束就因为各种原因被扔掉了。Dirnagl是德国柏林Charité医科大学中风研究中心(Center for Stroke Research at Charité University Medicine Berlin)的负责人,他正在审阅一篇论文,这篇论文介绍了一种新药,可以给中风小鼠的大脑带来一定的保护作用。该论文的作者使用了20只试验小鼠,其中一半是实验组,另外一半是对照组。但奇怪的是,论文里介绍试验组数据的图表中只给出了7只试验组小鼠的数据。

Dirnagl给杂志编辑写了一封回信,指出他不能给出意见,他要知道另外3只小鼠去哪了。可是半年过去了,Dirnagl还没有得到作者的任何回音。最终编辑做出了回复,告诉Dirnagl,论文作者表示,那3只小鼠由于中风的程度比较严重,死亡了,所以没有得到试验数据。可是其他人对这种药物的分析显示,那3只小鼠并不是因为中风而死亡的,而是因为这种药物死亡的,也就是说这种药物不仅没有对中风小鼠的大脑产生保护作用,反而还起到了一定的损害作用。

“这也算不上是欺诈。在动物实验中以任何理由去除部分动物的试验结果都是可以接受的。你看看你自己的数据,根本就没有什么必须遵守的规则。大家都在人为剔除某些数据,每个人都这么干,只是从来没人指出而已。”自己也经常做小鼠动物实验的Dirnagl这样解释道。不过他也认为这种科研界的坏习惯是不对的,也是影响动物研究真实性的几大因素之一。

多年来,科研人员、制药公司、医药监管当局甚至包括公众一直都感到非常遗憾,为什么有那么多的药物在动物实验中的表现都非常好,可是一到人身上就不管用了呢?很多关注点都集中在这些实验小鼠病理模型是否能够真实反映人类疾病的情况上。但是Dirnagl和其他人都认为另外一个问题同样重要。他们认为,很多动物实验都做得非常差。如果实验能够更加严谨一点,应该就能够更好地反映人类疾病的真实情况。

当然这也很难实现。动物实验涉及生物学的各个领域,从单分子活性到某种新药的副作用检测,涵盖面非常广。专门从事动物研究的人都会非常小心、谨慎地设计实验,寻求背后的科学真相。

其实动物实验对人类药物研究还是有非常重要的意义和贡献的,比如Dirnagl评阅的那篇文章就是,但是这些工作还缺乏一套标准,远不如临床试验来得规范。在临床试验工作中,志愿者都会被计算机随机分成实验组和对照组。每个人都不知道自己属于哪个组,这就确保了试验的可信度与真实性。而且任何一个临床试验,招募志愿者也有一整套标准。比如如果患有高血压病,或者是已经接受过治疗的肿瘤患者,也许就不适合某个试验项目。

可是动物实验就没有这么多规矩。出于伦理和经费的考虑,科学家们往往都会尽可能少用实验动物,也就是说样本规模会尽可能小。动物实验就是非盲、非随机的试验。用Dirnagl的话就是“我们做动物实验的方法还是石器时代的方法。”

从各个角度来说,都有非常迫切的压力要求改变这种现状。知名研究发现,临床前研究结果往往不能复制,不论是出于自身公众形象考虑还是确保科研的声誉考虑,这都迫使科研人员和项目资助者必须想办法解决这些问题。

问题的根源

Dirnagl提出的问题也是欧洲同行们关注的问题。十年前,苏格兰爱丁堡大学(University of Edinburgh)的神经学家Malcolm Macleod已经在寻找治疗中风的新药了。他想发现能够在动物实验中表现良好、但是暂时搁置在那里的药物,想看看这些药物是不是值得在人体上进行试验。

Macleod等人发现了603种做过动物实验的药物,其中374种药物对修复大脑是有帮助的。其中也有97种曾经进行过人体试验,而其中只有一种药物有效。而Macleod也很快发现,那种药物并没有进行过动物实验,只是对心肌梗死患者有效。

这种动物实验和人体试验割裂开的现状让Macleod大吃一惊,于是他也开始关注问题出在哪里。他发现有可能是这种药物的人体试验做得不合适,比如剂量太低,或者没有在中风之后马上给药等。另外一种可能就是人体试验没问题,但是动物模型不是非常好的中风模型。第三种可能就是最开始的动物实验就做错了。

Macleod决定进一步深入研究这个问题。他的发现也让他感到了警惕。只有36%的动物试验采用了随机分组的方式,设置了中风实验组和对照组。只有29%的试验是单盲试验。而且Macleod还发现,凡是这些没有采用单盲和随机分组方式进行的试验结果都比较好,药物都有明显的治疗效果,比如针对某一种药物进行过两次试验,一次是没有采用随机单盲方式开展的试验,另外一次是采用了随机单盲方式开展的试验,可得出的结果是没有采用随机单盲方式得到的药效要高一倍,而且这些研究在所有研究当中占大多数。

Macleod随后又对其它神经疾病开展了研究,比如阿尔茨海默病(Alzheimer’s disease)、多发性硬化症(multiple sclerosis)、亨廷顿氏病(Huntington’s disease)、帕金森氏病(Parkinson’s disease)以及神经性疼痛等。结果在寻找能够有效治疗这些疾病的药物的动物实验中发现,如果说有什么比中风还要严重,那就是科研人员几乎很少采用有助于减少试验误差的方法。

很多科研人员在开展科研工作时往往都会忽视Macleod最看重的严谨性,因为他们的老师,甚至是老师的老师都是这么干的。据目前在美国加州大学旧金山分校(University of California, San Francisco)担任健康政策专家的Lisa Bero介绍,他过去接受的训练就是一名动物科研人员的训练。他们所理解的随机概念就是双手抓住笼子,看哪一只小白鼠跑过来,抓住哪只就是哪只。可这并不是科研实验工作中应该采用的,科学意义上的随机概念。有些动物可能会比较胆小,或者会咬人,或者就是缩在一旁独自睡大觉。这些动物都不会被“随机”选中。所以从这里开始,试验就已经出现了误差和失真。

Macleod从2004年开始陆续发表了这一系列的研究成果,他的研究也得到了其他试验证据的不断补充。比如《肌萎缩侧索硬化》(Amyotrophic Lateral Sclerosis)杂志在2008年就曾经刊登过一篇文章,介绍了非盈利组织肌萎缩侧索硬化疗法开发研究所(ALS Therapy Development Institute)对70多种药物重新进行检测的工作,这些药物之前在小鼠动物模型试验当中都能够明显地缓解患病小鼠的症状。可结果没发现一个有效的药物。

该研究所的科学家们接下来做的工作才更加有意思。虽然他们没有发现有价值的药物,但是却也不能说一无所获,因为他们得到了2241只对照组小鼠的实验数据。他们在最开始就根据小鼠的性别、体型以及其它一些参数将小鼠随机分成了两组。然后开始试验,评价这两组小鼠的平均预期寿命(mean life expectancy),也许他们不应该检测这个指标,因为这两组小鼠的平均预期寿命毫无二致。

可试验结果还是有一些意义的。如果这两组小鼠每组只有4只实验鼠,那么就有30%的几率得到有差异的实验结果。可是如果每组的实验鼠达到10只,就只有10%的几率得到有差异的实验结果。“如果有10个实验室都在做这个试验,其中有一个实验室发现有差异,并且最先发表了论文,那么其他9个实验室很大程度上都不再可能发表相同内容的文章了。于是我们就只能看到第一篇结论错误的文献。”美国国家神经系统疾病及中风研究所(National Institute of Neurological Disorders and Stroke,NINDS)的项目负责人Shai Silberberg这样介绍道。

虽然ALS研究所的科研人员们所做的样本量也不算太大,但是他们的试验结果已经非常接近真实情况了。有人对76个非常有影响的动物实验研究工作进行过统计,发现其中有一半的工作每个实验组才使用了5只,甚至更少的试验动物。

Bero最近也对很多治疗心脏疾病的他汀类药物(statins)的动物实验工作进行了一番分析和研究,并于今年9月在国际同行评议及生物医药刊物大会(International Congress on Peer Review and Biomedical Publication)上汇报了她的统计成果。她发现凡是由企业资助的科研项目结果都比较可靠,这可能是因为企业出于经济利益的考虑,不会把大把的经费浪费到没有太大希望的工作当中。

现状

在美国马里兰州贝塞斯达,Silberberg担任着一个非常有实力的职位,他是NINDS所长顾问委员会的成员,而这位所长就掌管着大量的科研经费。大约在3年前,之前在以色列接受教育和训练,后来才来到美国的生物物理学家Silberberg逐渐开始感到担忧,因为他发现研究所给太多的、并没有确凿科学根据的项目开了绿灯。于是他决定要做点什么。

Silberberg有很多方面可以入手,不过他最终选定了动物实验这个领域。这有一部分原因是因为看到了Macleod等人提供的数据和研究结果。NINDS有一部分经费就是拨给转化研究的,即将动物实验的成果转化成对人类有益,可用于临床治疗的实际应用和产品的工作。另外一方面的原因则是因为Silberberg感觉患者们承受了太多本不应该承受的痛苦,他心里感到不安。

经过与美国国立卫生研究院(National Institutes of Health, NIH)的多轮探讨,Silberberg终于在2012年的夏天与一帮同仁们一起在华盛顿市区成立了一个工作组。参加他们这个组织的还有杂志的编辑,因为Silberberg认为他们有助于建立一套动物研究的标准规范。他表示,最开始,有太多的推诿和扯皮。编辑有责任,论文评阅人有责任,科研资助单位也有责任。讨论了一天他们得出了这样一个结论:你看,每一个人都有责任。那我们是不是能够就动物实验工作中的某些需要重点强调、汇报的关键点达成一致,建立一套标准规范呢?

在那之后的几个月里,工作取得了显著的成效。现在,动物实验考查制度已经成为了NIH的一项工作,这有助于提高所有受NIH资助的科研工作的可重复性,也有利于提高这些工作的开放程度。此外,还有几家其他的研究所也正在开始制定相应的制度,希望能够引导他们的基金审批工作朝着这个规范化的方向发展。因为我们需要根据这些动物实验的结果来开展后面的临床试验,甚至是临床应用工作,所以一定得要求这些动物实验工作明确表明试验是否是按照单盲、随机的方式进行的,同时也需要考虑样本规模,尽可能降低出现不可靠结果的几率。据NIH的副所长,正在从事这方面的Lawrence Tabak介绍,很多时候,这些资助机构都忽略了一点,没有对最基本的实验设计和统计学分析等方面作出应有的要求。

除了NIH之外,美国国家环境健康科学研究所(National Institute of Environmental Health Sciences)的毒理学家Kristina Thayer也在开展这方面的工作。他正在尝试建立一套动物实验分级制度,以便科研工作管理部门能够对动物实验工作中涉及到的药品和化学品进行更好的推荐和管理。比如在研究很多塑料中都很常见的双酚A(bisphenol A)这种化学品的危害时,Thayer就对15种可能会影响实验结果准确性的试验方法和设计策略进行了评估。其中就包括:试验分组时是否采用了随机的方法?试验是否是单盲的?各组之间是否所有的试验条件全都一样?Thayer说道:“当你审查一个项目是否有偏差时,结果不一定是‘有’或者‘没有’,也有可能存在一大片灰色区域,而且其中‘灰色’的深浅还有差异。这些不同的区域都会有各自的科学意义。”美国环保局(Environmental Protection Agency)也在重新考虑应该如何评判动物实验的结果。

科技出版界也行动起来。比如在今年的4月,《自然》(Nature)杂志就公布了一份清单,其中列举了一些生物类文章的作者和评审,杂志社要求这些人为论文提供更加详尽的试验方法说明。还要求说明动物是否按照随机方式分组,是否单盲,还要求给出剔除某些数据的理由和标准,所有这一切都是为了避免再出现本文最开始介绍过的,Dirnagl遭遇的情况。《科学 转化医学》(Science Translational Medicine)杂志在今年的6月也宣布了类似的决定,《科学》(Science)杂志也在考虑推出相关的举措。

不过有一些人认为这些要求是多余的。比如美国芝加哥西北大学(Northwestern University in Chicago, Illinois)的Joseph Bass是专门以糖尿病小鼠模型和肥胖小鼠模型为试验材料,开展相关研究的专家,他并不认为整个生物研究界得到的全都是不可靠的结果,也不认为存在系统性的偏差。不过他也承认,小鼠试验的结果往往都是不能重复的,这也是他非常重视的一个问题,不过他认为问题并不是出在统计分析方面,而是视情况而定,存在多方面的问题,甚至是试验操作本身的问题。比如拿Bass等人的研究领域——代谢组学来说,其试验的结果往往就会受到温度的影响,因为小鼠对温度非常敏感。另外如果遗传操作(比如构建动物模型的操作等)对这些动物带来了滞后性的不良影响,也会影响到试验结果。所以科研人员们也希望能够用较年长的试验动物重复在年幼动物实验中观察到的现象和结果。同时Bass也认为,在动物试验工作中添加一套规范和要求是不现实的。

Bass还担心这会导致大家对整个科研工作和科学界感到不信任。他说道:“对于这件事情有很多讨论,其中有一个很大的声音就认为,这是整个科研界的道德问题。我们现在正在修订相关的规定和制度,就是为了解决这个问题。”

对于最后这一点,Dirnagl也表示赞同,不过他也认为制定一套新的制度和规范是很有必要的。Dirnagl认为,有很多科研人员都被指控造假,但这么说是不公平的。他认为这么说太过了,而且这种苗头也是非常危险的。他们需要正确地讨论并处理这些问题。更重要的是,我们还需要对这些人,以及新一代的科研力量进行培训和宣教,告诉他们正确的方法和态度。Dirnagl也希望大家能够用乐观的态度看待他的发现,他不希望他的这些研究成果打击到了广大科研人员的积极性,也不希望因为这个和同事之间产生什么隔阂。

Dirnagl同时也表示,他已经在清理他自己的试验工作,这也不是太麻烦的工作。他在所有试验动物的尾巴上全都做上了数字标记,然后用数字生成机(number generator)对试验动物进行随机分组。如果在试验(手术)操作中动物的血压降低到一定的标准,Dirnagl就会在文章中剔除这个动物的相关试验数据。他现在正在准备开展另外一个多中心的研究项目(multicenter studies),这也是临床试验工作中沿用了多年的一种试验方式。这样就可以扩大样本量,做到可重复性,尽可能地得到可信的试验结果。

另外还有一个问题,我们做的这些努力真的就可以保证动物实验的可靠性吗?Macleod认为,关于哪些地方值得修改,哪些地方不需要修改,我们自己也不能完全肯定,所以还需要时间去进一步验证。不过最后Macleod还是表示,他坚信更规范的方案一定会让大家对小鼠实验结果重拾信心。“如果我对小鼠模型没有信心,我也就不会把我所有的时间全都浪费在那上面, 如果我们能找到最合适的方法,就能体现模型的意义。” Macleod最后总结道。

 

查看信源地址

编辑: zhongguoxing

版权声明

本网站所有注明“来源:丁香园”的文字、图片和音视频资料,版权均属于丁香园所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:丁香园”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。同时转载内容不代表本站立场。

  • App下载