预印本文档研究生成剽窃地图
一项对预印拷贝服务器(arXiv)上成千上万项研究的新分析提供了关于科学剽窃的影响和地理分布的有趣信息。在一些国家,从其他论文中抄袭单词更为常见,但是这些有大量剽窃行为的作者几乎面临着相同的结果:他们论文的引用率不高。
自1991年成立以来,arXiv已成为世界上最大的物理、数学和其他领域成就的“集散地”。每个人都可以在这里发表他们的论文,无需完全的同行评议。但是纸张需要接受质量控制程序。一个计算机程序将最终检查论文:将论文的文本内容与在arXiv上发表的其他论文进行比较。目标是给那些可能有高剽窃风险的论文打分。
“文本重叠”是一个技术术语,有时它也能证明论文是“无辜的”。例如,一篇综述文章可能会引用大量内容,或者作者可能会重复使用并稍微修改以前文章中的句子。ArXiv剽窃监控系统将允许这样的论文通过。"这是一台非常智能的机器。"保罗·金斯伯格是康奈尔大学的物理学家,也是arXiv的创始人,他说,“它有一种特殊的方法来检测大引号、斜体文本、引号和数学定理语句,以避免主动错误信息。”
金斯伯格将1991年至2012年间提交给arXiv的757,000篇文章与该校物理学博士生丹尼尔·香橼进行了比较。结果表明,论文中引用的发表内容越多,引用率可能越低。他们还注意到“文本重用”惊人地普遍。在过滤掉摘要文章和合理的引文后,每16位arXiv作者中就有一位从他们发表的文章中剽窃了大量内容。更令人担忧的是,每1000名作者中就有一人从其他论文中抄袭了近一段,但却没有确定出处。
此外,提交人将在向arXiv提交论文时注明其居住国。因此,这将揭示哪些国家的剽窃率最高。然而,金斯伯格说,他的研究中文本的重叠不一定是剽窃。数据显示,美国、加拿大以及欧洲和亚洲几个工业化国家的研究人员提交的arXiv论文份额最大,剽窃率也较低。例如,20%的保加利亚作者被标记(38/186),是新西兰的8倍多(5/207)。日本约为6% (269/4759),而伊朗超过15%。(张张)
中国科学新闻(2014-12-16第三版国际版)
阅读更多信息:
科学相关报道
推荐阅读