迎接开放获取大时代

2013-10-31 22:02 来源:生物360 作者:
字体大小
- | +

去年5月,当 Heather Piwowar 开始调查公开研究数据是否能增加论文引用率时,她从未想到会遭遇困难。作为加拿大开放指标服务 ImpactStory 的共同创始人,那时的 Piwowar 是美国北卡罗来纳州杜克大学的一名博士后。由于缺乏从机构层面进入爱思唯尔SCOPUS数据库的途径, Piwowar 最终通过和加拿大国家科学图书馆的一份研究协议获得了使用权。

但这需要提取 Piwowar 的指纹以获得一份证明。“我浪费很多时间在获取研究所需的引文数据上。这很可笑。” Piwowar 需要分析1万篇文章的引用次数,但是其他主要的引文来源,诸如汤森路透科学网,在那时并不支持使用PubMed文献服务系统独特数字标识符的查询。 Piwowar 解释:“要是有公开的引文数据,我就可以写我自己的文章了!”

在美国马萨诸塞州波士顿市哈佛大学医学院神经病学家 Steven Greenberg 准备研究假说是如何被转变为“事实”(仅通过重复引用)时,他有着和 Piwowar 相似的经历。 Greenberg 构建和分析了一个引文网络,包括 242 篇论文、675 份引文、553 个截然不同的引文路径(和一个特定的假说相关)。如果这些引文数据能够轻易在网上获取,那将能使 Greenberg 少费许多周折。

在这个开放获取的时代,学者不能免费使用期刊论文上的参考文献,这着实是一桩不可思议的事情。为了改变这一现状,引文数据需要被视为公有物的一部分,并安放在一个公开的资源库中。

为了达到这个目的,自2010年起,David Shotton 领导了一个 JISC(一家英国信息技术研究与开发资金组织)资助的价值 13.2 万英镑(约合 21.2 万美元)的项目,建立并发展了开放引文语料库(OCC)。在开放的学术引用数据方面,OCC 还是一个“羽翼未丰”的资源库,目前正在寻求可持续的资金。

开放式获取

直接引用一直是衡量产出重要性的一个主要指标。学术交流包括引用网络信息和观点的流动,以及随着时间的推移分析网络的变换,从而揭示学者间沟通模式的变换和学科的发展与消亡。这种信息对学术研究至关重要,对于制定正确的研究投资和战略、促进创新、增长和繁荣,尤其是在日益国际化的研究合作中也非常重要。

最权威的学术引用数据来源要属汤森路透科学网络,其从美国科学家 Eugene Garfield 于 1964 年创建的科学文献索引发展而来,最初由科学信息研究所(ISI)出版;它的主要商界对手——爱思唯尔数据库,诞生于 2004 年。这两大巨头都囊括主要的学术文献,但由于都不完整,它们也互为补充。

为了使用这两大资源,英国每所研究型大学每年需花费数万英镑。这一高昂的花费严重损害了那些不在这些机构工作的群体的利益,包括大多数企业和公众。其他引文信息的重要来源也由商业公司运营,但是无需订阅即可获取,例如谷歌学术搜索和微软学术搜索。谷歌学术搜索的资源库比同类型的资源库大,因为其包括书籍、论文、预印本、技术报告和其他非同行评议的“灰色”文献。

所有这些资源都有许可限制,阻止对其引文数据的重新发布。更糟的是,可用的引用数据是不准确的。在汤森路透科学网、斯高帕斯数据库、谷歌学术搜索和微软学术搜索上, Shotton 的引用记录竟截然不同。例如, Shotton 于 2009 年发表的一篇语义学论文,在这 4 家平台的引用次数分别是 22、37、88和 16。究竟该相信哪一个?更令人担心的是,一份更早的关于蛋白质结晶学的论文在汤森路透科学网络上有 3 个单独的条目,每个条目的引用次数分别为59、19 和 0。 Shotton 据此怀疑汤森路透期刊影响因子的可信度。

渐成主流

理想情况下,出版商会把自己的出版书目和引用数据拿出来分享,比如自然出版集团把自己的数据发布在 data.nature.com 上。它是第一家也是唯一一家将数据共享的公司。

但是,如果能够将这类数据整合在一起,则会获得更大的收益。OCC 将为用户浏览引用数据提供完整的权限,这些数据的来源非常广阔,既有传统学术出版物的数据,也有其他数据,并且所有数据都会标明来源。OCC 将把文章与文章、文章与数据库、数据库与文章引用的关系清晰展现出来。此外,还将提供附加信息,例如作者、机构成员、共同的资助人、文章间语义关系,以及数据来源。

一旦引用数据得以开放,有益的分析服务也将开展,包括面搜索与浏览工具、建议与趋势识别服务,以及时间表可视化服务。对于这些服务,目前已经开发出了其中几种的原型。OCC 对统计引用指标的巨大价值也将随着其覆盖面的延伸而增加。

此外,还有另一种尤其对作者和编辑有益的服务:错误引用更正服务。目前,出版论文的引用中有约 1% 存在着不同程度的错误,小到在引用标题中将“β 淀粉酶”写成“β- 淀粉酶”,或者对作者名字中符号的疏忽;大到年份、期刊号、页码或者数字对象标识符的错误。OCC 已经在内部使用引用更正方法,以处理多次引用问题,或者通过外部资源获取权威书目记录。

未来展望

接下来会有怎样的发展呢?就在 10 年前,也有一个具有相似目标,旨在开放引文数据的项目存在,名为开放引文计划。这是一个由英国南安普顿大学、美国纽约州伊萨卡市康奈尔大学以及 arXiv 网站共同构建的项目,该项目从 1999 年开始到 2002 年共维持了3年时间。

该项目开发了一款名为引用库的软件,能将引用信息记录下来,该软件的设计者将它描述为“开放引文计划皇冠上的珠宝”。但是,如今再点击该项目的网址 citebase.eprints.org,得到的提示是:该网址目前没有网站链接。

要想使纸面上雄心勃勃的计划真的成为现实,并将它长期维持下去,是一件极为困难的事情。为了避免 OCC 重蹈引用库的覆辙,使它得到全面的发展并最终向整个学术界各个学科提供令人信任的引用数据开放服务,需要拥护者、管理者、开发者以及监督者共同的努力。此外,还需要怀有相同目标的同道中人精诚合作、来自资助者充足持续的资金、支持者和投资者以提升社会福利而不是经济回报为导向的决心、来自出版界的鼎力支持、重要机构或者国际组织的认同。你能贡献一份力量吗?





 

查看信源地址

编辑: zhongguoxing

版权声明

本网站所有注明“来源:丁香园”的文字、图片和音视频资料,版权均属于丁香园所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:丁香园”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。同时转载内容不代表本站立场。