Nature：一网打尽全球top100科学论文

2014-11-03 18:09 来源：生物360 作者：koo

字体大小

- | +

高温超导体的发现、dna双螺旋结构的确定、宇宙膨胀加速的最早观察结果，所有这些突破都获得了诺贝尔奖和国际认可。但这些论文从未宣称自己跻身有史以来引用率最高的百篇论文之列。

引用是作者承认早期研究的方法、理念和发现的标准手段，并且通常被当作衡量一篇论文重要性的粗略标准。50年前，eugenegarfield发行了科学文献索引（sci），这是首个追踪科学文献引用的系统性努力。在周年纪念到来之际，《自然》杂志携手汤森路透（目前是sci的拥有者），罗列了有史以来引用率最高的100篇论文。该研究涵盖了汤森路透全部数据库——sci的在线版本，也涵盖了社会科学、艺术与人文、会议记录和一些书籍。论文的发表时间从1900年至今。

该研究得出了一些出乎意料的结论：至少得出要位居前100必须有12119次引用的惊人结果，而许多世界上最知名的论文都未能达到这一标准。前100名中，一些确实是经典成就，例如首次发现碳纳米管（第36位）。但大多数描述实验方法和软件的论文成为其领域的重要资料。

例如，历史上被引用次数最多的是一篇1951年的论文，描述了一个确定溶液中蛋白质数量的实验。到目前为止，它共被引用了30.5万次。这个数字也让该论文的第一作者、美国生物化学家oliverlowry感到不解。他在1977年写道：“我确实认为它并不是一篇极好的文章，但我依然从这样的反响度上得到了极大快乐。”

如果整个汤森路透的数据库是一座乞力马扎罗山，那么这100篇引用率最高的论文只相当于山顶的1厘米。只有14499篇论文的引用率超过1000——这也只占1.5米的高度。同时，山麓上的论文可能只被引用过一次。

荷兰科学和技术研究中心主任paulwouters表示，许多研究方法论文“成为一个标准的参考，以便让其他科学家明白自己在做的工作是什么”。另一个科学惯例是真实的基础研究（例如爱因斯坦的狭义相对论）获得的引用比它们应得的更少：它们如此重要，能很快地进入教科书，或成为论文正文的一部分——这些理论如此著名已经不需要标注引用。

引用计数也会受到其他混合因子的影响。例如，发表时间早的论文有更多时间积累引用量、生物学家的引用量高于物理学家、并非所有领域的出版物数量相同等。

另外，谷歌学术也曾为《自然》杂志编辑了100篇顶级论文。在这份名单里，经济学论文成绩最为突出。谷歌学术还突出了书籍的排名，而汤森路透并没有对此进行分析。但在科学论文中，两份名单有一些重合。

无论遭到多少质疑，这种老式的名人堂依然有价值。它能作为自然科学知识的提醒。研究人员正在依赖着相当多的被埋没的关于实验方法、数据库和软件的论文，这是令人激动的进步。

生物技术

数十年来，前百位论文名单始终被蛋白质生物化学界所主宰。上述1951年论文一马当先牢牢占据首位。尽管许多生物化学家表示，该论文与bradford法相抵触，已经有些过时，后者位列第三。位居第二的是用于不同蛋白质分析的laemmli缓冲液。这些技术的高排名归功于细胞和分子生物学的大量引用。

前100位论文中，至少有2种生物学技术获得诺贝尔奖。排名第四的论文（作者fredericksanger）描述了dna测序技术；第63位的论文（作者karymullis）讲述了聚合酶链反应，其作者均因此获得诺贝尔奖。

其他方法虽然受到的关注度较低，但仍获得不小的回报。上世纪80年代，意大利癌症遗传学家nicolettasacchi与波兰分子生物学家piotrchomczynski在美国发表了从生物样本中提取rna的一个快速、廉价方式。目前，这篇论文排名第五。sacchi表示自己并未从这项技术中获得金钱报酬，但却从研究中获得巨大的满足。

生物信息学

sanger的论文发表后，基因序列研究迅速发展。一个主要的例子是blast（局部序列排比检索基本工具），它已经广泛被希望了解基因和蛋白质作用的生物学家所知晓。用户只需要在浏览器中打开程序，并插入一个dna、rna或蛋白质序列。几秒钟之后，它将显示来自数千生物体的相关序列，以及这些序列的功能信息，甚至有关的文献。有关blast的论文在排名中出现两次，分列第12位和第14位。

但由于引用习惯存在差异，blast被clustal挤出排名。clustal允许研究人员描述不同生物体的序列间的进化关系，以便找到看似无关的序列间的匹配关系，并预测基因或蛋白质的一个特定点的变化如何影响其功能。一篇发表于1994年的描述clustalw的论文位列第10，另一篇发表于1997年的clustalx论文位居第28。

blast和clustal的研究小组在为其论文的排名展开竞赛。但clustal研究小组成员、爱尔兰都柏林大学生物学家deshiggins表示，这是友好竞赛。“blast是游戏规则改变者，它们获得的每一次引用都当之无愧。”

系统发生学

另一个受到日益发展的基因测序学鼓舞的是系统发生学。该学科致力于研究物种间的进化关系。

位居该排名第20位的是一篇介绍“邻位相连法”的论文——它根据遗传变异等进化距离的测量，将大量生物体快速有效地放置到系谱树上。上世纪80年代，人体人类学家naruyasaitou在加盟得克萨斯大学masatoshinei实验室后帮助设计了该技术。那时，人类进化和分子遗传学两个领域充斥着大量信息。“我们人体人类学者有点像面临着当时的大数据。”saitou说。该技术帮助研究人员在不耗尽计算机资源的前提下，从大规模数据库中设计出系谱树。

位居第41的论文描述了如何将统计学运用到系统发生学中。1984年，华盛顿大学进化生物学家joefelsenstein改编了名为引导程序的统计学工具，以推断进化树不同部分的精确性。尽管一开始该论文积累引用数量十分缓慢，但到上世纪90年代至本世纪初，当分子生物学家意识到需要这样的方法进行预测后，它迅速受到欢迎。

统计学

芝加哥大学统计学家stephenstigler表示，尽管前100篇论文中有不少统计学文章，“但对我们统计学家而言，并非所有文章都是最重要的”。当然，它们已经被证明对广大科学家来说是最有用的。

这些交叉成功很多源于生物医学实验室不断得到的数据。例如，统计学论文中引用最频繁的一篇（位列第11）是1958年美国统计学家edwardkaplan和paulmeier发表的帮助研究人员了解一个人群的幸存模式的论文，例如临床试验的参与者。该方法引进了卡普兰-迈耶曲线。第二篇（第24位）则是英国统计学家davidcox于1972年发表的论文。他扩展了这些生存分析，纳入性别和年龄等因素。

而卡普兰-迈耶曲线论文则是名副其实的黑马，在上世纪70年代计算机技术兴起前，它几乎没被任何人引用。另外，简单和易用也推动该领域论文广受欢迎。英国统计学家martinbland和douglasaltman因一项目前名为blandaltman分析的技术而占据了排名的第29位。

最老和最新的统计学论文都涉及相同的问题——多重比较数据，但却出自迥然不同的科学背景。美国统计学家davidduncan在1955年发表的论文（第64位）适用于需要比较数个分组时，但排名第69位的控制错误发现率的论文（以色列统计学家yoavbenjamini和yosefhochberg发表于1995年）则能被用于比较成千上万的数据，这一尺度是duncan的论文无法达到的。

无论如何，耶鲁大学化学家petermoore表示，这位研究人员上了有力的一课。“如果引文是那些你想用的，发明一种能帮助人们进行自己希望的实验或让研究更加容易的方法，将比发现宇宙的秘密，让你走得更远。”

查看信源地址

编辑：王可可

版权声明

本网站所有注明“来源：丁香园”的文字、图片和音视频资料，版权均属于丁香园所有，非经授权，任何媒体、网站或个人不得转载，授权转载时须注明“来源：丁香园”。本网所有转载文章系出于传递更多信息之目的，且明确注明来源和作者，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。同时转载内容不代表本站立场。

os

os

os

os

os

关注频道微博

快速获悉最新信息

App下载

下载医学时间

每天10分钟成学霸
X
关注我们

手机扫一扫

关注丁香园微信号

胸外	肾内	风湿免疫	感染
呼吸	消化	丁香公开课	检验
医疗器械	血液	超声	康复
耳鼻喉	重症	口腔	皮肤
精神	医院汇	神外	眼科
整形	普外	影像	麻醉
泌尿	儿科	妇产	会议
丁香六度	健康互联	药品汇	PUBMED
内分泌