《Science》刊登论文抄袭全球分布图:猜猜中国排第几?

2014-12-20 02:18 来源:澎湃新闻 作者:徐明徽
字体大小
- | +


在这张学术抄袭分布图上,颜色由黑到红地标识了剽窃率的从少至多,其中大红色为抄袭最严重的地区。

近日,美国《科学》杂志刊登了一篇有关学术抄袭全球分布的有趣结论。这个结论是由arXiv在线数据库上数十万论文数据分析得出的,数据显示,德国、美国、日本等国论文“借鉴”的概率相对较低;伊朗、保加利亚等国最为严重;中国的论文抄袭率居中游。

地图中以黑色颜色标记的国家剽窃率相对最少。德国提交的9201篇论文中,被标记的论文由297篇,概率在3.23%,世界最低。美国紧居其后:提交的26052篇论文中,被标记的有1236篇,概率在4.74%。“黑色阵营”中还有日本和澳大利亚,被标记的概率分别是5.65%和5.89%。

第二梯队是地图上的“暗红色阵营”,代表国家有巴西、印度和中国。其中巴西被标记的论文概率为8%,印度为10.99%,中国则是10.8%,提交的6372篇论文由688篇被标记。

“引用”他人著作最严重的国家是地图上大红色的区域,有保加利亚、埃及和伊朗,其中保加利亚的被标记概率超过了20%。埃及和伊朗分别是18.91%和15.56%。

arXiv是一个收录科学文献预印本的在线数据库,由美国康奈尔大学物理学家Paul Ginsparg创立于1991年,包含了大量的学术文章,已经成为了物理、数学等领域成果发布的学术分享地。每天有接近百万的论文提交,每天出版大约数百篇。任何人都可以申请提交,并且不需要同行专业人士的审阅。

arXiv最重要的特点是开放式获取,每个人都可以免费访问全文数据。这无疑给学术剽窃提供了便捷的条件。

不过,在arXiv上提交的论文需要接受质量检查程序的检查。一个计算机程序会将论文的文本内容与其他发表在arXiv上的论文进行比较,以分辨是否抄袭。Paul Ginsparg对美国科学促进会说:“这是一个非常智能的机器,它有特殊的方法检测大块引用、斜体字文本、引号内容以及数学定理陈述,以避免出现主动错误信息。”

Ginsparg和该校物理学博士生Daniel Citron比较了1991-2012年提交给arXiv的75.7万篇文章。结果发现,“文本再使用”惊人地普遍。过滤掉综述文章和合理引用后,每16位arXiv作者中,就有1位存在大段抄袭其已发表文章的行为。更令人担忧的是,每1000位作者中就有1人从其他论文中抄袭了近1段文字,但没有标注出处。

由于作者在向arXiv提交论文时,会注明自己的居住国。这就使得那些国家剽窃率最高一目了然。数据显示,来自美国、加拿大以及欧洲和亚洲少数工业化国家的研究人员提交的论文占arXiv论文的最大份额,而且剽窃率也更低。

2011年8月开始,arXiv开始论文的文本重叠开始系统性地标记,来自151个国家的10多万的作者,一共提交了30多万篇文章。研究这些数据发现,每16个作者提交的论文中,就至少有一次抄袭艰涩标记。

不过,Ginsparg表示,这次研究中的“文本重叠”并不一定都是剽窃。一篇综述文章可能引用大量内容,或作者会再利用和略微修改之前文章的语句。此外有趣的是,数据显示一篇论文引用的已发表内容越多,其再被引用率就越低。也就是说如果越接近“抄袭”的论文,价值越低。

点击这里查看文章原文

查看信源地址

编辑: 王可可

版权声明

本网站所有注明“来源:丁香园”的文字、图片和音视频资料,版权均属于丁香园所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:丁香园”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。同时转载内容不代表本站立场。