迎接开放获取时代 科学文献引用现状及趋势扫描
在这个开放获取的时代,学者们不能免费使用期刊文章中的参考文献,这真是一件不可思议的事情。照片来源:自然
去年5月,希瑟·皮沃瓦(Heather Piwowar)开始调查公共研究数据是否能提高论文的引用率时,她从未想过自己会遇到困难。作为加拿大开放指标服务影响故事的联合创始人,皮沃瓦是北卡罗来纳州杜克大学的博士后研究员。由于缺乏对埃尔塞维尔·斯科普斯数据库的机构访问,皮沃瓦最终通过与加拿大国家科学图书馆的研究协议获得了使用该数据库的权利。
但这需要提取皮沃瓦的指纹才能获得证书。“我在获取研究所需的引用数据上浪费了大量时间。这太荒谬了。”皮沃瓦需要分析10,000篇文章的引用数量,但其他主要的引用来源,如汤姆森路透科学网,当时不支持使用PubMed的唯一数字标识符进行查询。皮沃解释道:“如果有公开引用数据,我可以写自己的文章!”
马萨诸塞州波士顿哈佛大学医学院的神经学家史蒂文·格林伯格在准备研究假设如何变成“事实”(仅通过重复引用)时,与皮沃沃有着相似的经历。格林伯格构建并分析了一个引文网络,包括242篇论文、675篇引文、553条不同的引文路径(与特定假设相关)。如果这些引用数据可以很容易地在网上获得,格林伯格就不会有那么多麻烦。
《自然》杂志在网上报道说,在这个开放获取的时代,学者不能免费使用期刊文章中的参考文献,这真是一件不可思议的事情。为了改变这种状况,引文数据应被视为公共物品的一部分,并放在一个开放的资源库中。为了实现这一目标,自2010年以来,大卫·休顿领导了一个由英国信息技术研究和发展基金组织JISC资助的项目,价值132,000英镑(约212,000美元),并建立和发展了开放引文语料库(OCC)。就公开学术引用数据而言,OCC也是一个“新兴”资源库,目前正在寻求可持续的资金。
开放存取
直接报价一直是衡量产出重要性的主要指标。学术交流包括引用网络信息和观点的流动,以及对网络随时间变化的分析,从而揭示学者之间交流方式的变化和学科的发展与消失。这种信息对于学术研究、制定正确的研究投资和战略、促进创新、增长和繁荣,特别是在日益国际化的研究合作中非常重要。
最权威的学术引用数据来源是汤森路透科学网,该网站由美国科学家尤金·加菲尔德于1964年创建的科学文献索引发展而来,最初由科学信息研究所出版。它的主要商业对手伊斯梅尔数据库公司诞生于2004年。这两个巨人都包含主要的学术文件,但由于它们的不完全性,它们相辅相成。
为了利用这两种资源,英国的每所研究型大学每年要花费数万英镑。这一高成本严重损害了那些不在这些机构工作的人的利益,包括大多数企业和公众。其他重要的引用信息来源也是由商业公司运营的,但是可以不通过订阅获得,例如谷歌学术搜索和微软学术搜索。谷歌的学术搜索资源比同类资源大,因为它们包括书籍、论文、预印本、技术报告和其他非同行评审的“灰色”文档。
所有这些资源都有权限限制,以防止重新发布它们的引用数据。更糟糕的是,现有的参考数据不准确。在汤森路透科学网、Scopes数据库、谷歌学术搜索和微软学术搜索中,肖特顿的引用记录大相径庭。例如,Shotton在2009年发表的一篇语义论文在这四个平台上分别被引用了22、37、88和16次。我应该相信哪一个?更令人担忧的是,此前一篇关于蛋白质结晶学的论文在汤森路透科学在线上有三个独立的条目,每个条目分别有59、19和0条引文。因此,休顿怀疑汤森路透期刊影响因素的可信度。
成为主流
理想情况下,出版商将分享他们出版的书目和引用的数据,例如,自然出版集团将在data.nature.com出版自己的数据。它是第一家也是唯一一家共享数据的公司。
然而,如果这些数据能够整合在一起,将会获得更大的好处。OCC将为用户提供浏览和参考数据的完全权限。这些数据来自广泛的来源,包括来自传统学术出版物的数据以及其他数据,所有数据都将标明来源。OCC将清楚地展示文章和文章、文章和数据库、数据库和文章引用之间的关系。此外,还将提供其他信息,如作者、组织成员、共同发起人、文章之间的语义关系以及数据源。
一旦引用的数据被打开,还将执行有用的分析服务,包括表面搜索和浏览工具、建议和趋势识别服务以及时间表可视化服务。对于这些服务,已经开发了几个原型。OCC对统计引文索引的巨大价值也将随着其覆盖范围的扩大而增加。
此外,还有另一项对作者和编辑特别有益的服务:错误参考纠正服务。目前,已发表论文的引文中约有1%存在不同程度的错误,从引文标题中的“β-淀粉酶”到“β-淀粉酶”不等,或作者姓名中的符号被忽略;错误大到年份、期刊号、页码或数字对象标识符。OCC在内部使用引文校正方法来处理多重引文或通过外部资源获得权威的书目记录。
未来前景
接下来会发生什么?就在10年前,还有一个类似的开放引用数据的项目,叫做开放引用计划。这是一个由英国南安普敦大学、美国纽约伊萨卡岛康奈尔大学和arXiv网站联合建造的项目。该项目从1999年到2002年持续了3年。
该项目开发了一个名为引文库的软件,可以记录引文信息。软件的设计者将其描述为“开放引用计划皇冠上的宝石”。然而,如果你再次点击该项目的网站citebase.eprints.org,你将被提示目前没有该网站的链接。
要使纸上的宏伟计划成为现实并长期维持下去是极其困难的。为了防止OCC重蹈引文图书馆的覆辙,使其全面发展,最终为学术界各学科提供可信的开放引文数据服务,需要倡导者、管理者、开发者和管理者的共同努力。此外,它还需要具有相同目标的同胞的真诚合作,赞助者的充足和持续的资金,支持者和投资者促进社会福利而不是经济回报的决心,出版业的全力支持,以及对重要机构或国际组织的承认。你能做出贡献吗?(段鑫)
《中国科学新闻》(第三版国际,2013年10月29日)