文本挖掘工具找出 “隐藏数据”
资料来源:yahoo.com
忘记发布你的数据了吗?一个叫做“完全开放”的工具可以找到应该开放但被锁定的在线研究数据集的实例。美国科学生物学公共图书馆最近发表的一项研究表明,上述工具在遗传学研究领域已经标记了数百个这样的例子。
当相关研究进行同行评审时,科学家通常会将“隐藏”的数据放入网络存储库中,然后将数据集公之于众。例如,有两个流行的储存库,“基因表达温室载体”(GEO)和“序列片段档案”(SRA),它们为研究人员提供了隐藏基因数据的选项。两者都由美国国家生物技术信息中心管理,并要求在论文发表时将数据集公之于众。然而,华盛顿大学的计算机科学家马克西姆·格雷奇金说,在实践中,科学家经常忘记这样做。
为此,格雷奇金和他的合作者开发了一个“完全开放”的工具,侧重于地球观测组织和分区域行动,旨在寻找未开放的数据。该工具扫描纸张,查找包含唯一数据集标识符的内容(使用地理或静态随机存取代码格式)。Grechkin说,它也可以被调整以查询其他存储库。
一旦“完全打开”识别出有效的代码,就搜索相关的存储库,以确定数据集是否是公共的。它将任何本应公开但未公开的数据集标记为“过期”。
Grechkin的团队使用“完全开放”工具在“公共医疗中心”搜索了大约150万篇论文,这是一个生物医学研究的开放存取数据库。该工具确认有473个数据集没有出现在全球环境展望中,84个数据集没有出现在分区域行动方案中。
该团队向两个存储库报告了他们的发现。GEO搜索团队负责人坦尼娅·巴雷特(Tanya Barrett)表示,当员工开始检查时,他们发现有27个标记数据集已经公开——这意味着对于一些出版物来说,数据披露存在短暂的滞后。与此同时,他们发布了429个“过期”的数据集其余的例子要么是指不正确的代码,要么是指由于隐私问题或数据提交不完整而无法披露的数据集。
“我们非常乐意为我们使用的工具添加‘完全开放’功能。”巴雷特说。
她还说,大多数使用地球同步轨道的研究人员确实在论文发表后发布了他们的数据。GEO员工经常使用来自“公共医疗中心”和谷歌学术网站的警告来跟踪已发表的论文,但是因为这是一个人工过程,所以会有遗漏的案例。
研究人员在论文中表示,他们计划与SRA员工合作,以确保他们隐藏的数据集也能被公开。
目前,“完全开放”工具大约每月搜索一次全球环境展望和分区域行动,并在其网站上自动更新缺失数据的论文。
“根据我的经验,将数据放入地球同步轨道或次区域轨道的研究人员打算在某个时间点将其公之于众。”《分子生态学》杂志前主编、一篇关于数据共享重要性的文章的作者蒂莫西·韦恩斯说。
更大的问题是许多研究人员还没有公布他们的数据。“我认识的大多数研究人员甚至懒得把数据存储在某个地方,更不用说存储和共享数据了。”荷兰蒂尔堡大学的统计学家克里斯·哈特格林克说。
与此同时,Hartgerink认为“完全开放”的工具可以调整,以监控带有明确识别码的临床试验数据集。然而,将它应用于社会科学等领域将更加困难,因为它们没有广泛使用注册码,这使得跟踪数据集变得困难。
“完全开放”的一个关键限制是,目前它只能扫描公开发表的论文,因为该团队尚未获得扫描订阅内容的合法权利。Grechkin表示,他们正在联系订阅的出版商,寻求他们的许可。
Grechkin认为最终的期刊应该分担一些责任,以确保数据集是公开的。将来,“完全开放”工具也可能开始根据期刊的数据共享实践对期刊进行排名。(宗华编译)
阅读更多
自然网站上的相关报道
上一篇:时差让运动员掉链子
下一篇:您的生理期其实决定了您的衰老速度
推荐阅读