欢迎您访问科普小知识本站旨在为大家提供日常生活中常见的科普小知识,以及科普文章!
您现在的位置是:首页  > 自然科普

新算法可检测文献中重复图像

科普小知识2021-07-24 11:49:09
...

光学显微镜可以捕捉细胞和器官的显微照片。他们重复的形象可能会出现在科学文献中。

资料来源:米哈伊尔·特雷什琴科/塔斯社/盖蒂

三位科学家几天前说,计算机软件现在可以快速检测大量研究文件中的重复图像。

美国纽约锡拉丘兹大学机器学习研究员丹尼尔·阿库纳(Daniel Acuna)领导的团队最近在预印好的服务器bioRxiv上发表了一篇论文,报告称该团队成功使用了一种算法,该算法可以处理数万份生物医学论文,以找到重复图像。如果期刊编辑采用类似的方法,他们也许能在论文发表前更容易地检查图像——目前这件事需要很大的努力,只有少数出版物在这么做。

Acuna说,最新的结果表明,使用技术检测重复图像是可能的。他没有透露该算法,因为它有引发虚假指控的风险。相反,Acuna及其同事计划将其委托给期刊和科学诚信办公室。阿库纳说,他已经和芝加哥西北大学研究诚信办公室主任劳伦·夸尔肯布什讨论过这个算法。"这对科研诚信办公室非常有帮助."夸尔肯布什说:“我非常希望我的办公室今年能成为一个试验场,看看如何使用丹尼尔开发的工具。”

2015年初,Acuna和两位同事使用一种算法从76万篇论文中提取了超过260万幅图像。这些文章来自PubMed的开放存取部分,PubMed是一个由国家卫生研究院运行的生物医学文献数据库。获得的图像包括细胞、器官和凝胶印迹的显微照片。然后,该算法将把“镜头”移动到特征最丰富的区域——颜色和灰度变化最大的部分,从而在每幅图像中提取出独特的数字“足迹”。

在去掉箭头或流程图等特征后,研究小组最终获得了大约200万张图像。他们只比较来自相同的第一作者和通讯作者的论文中的图像,以避免将每个图像相互比较所带来的计算量。与此同时,即使图像被旋转、调整大小或改变对比度和颜色,系统仍然可以挑选出潜在的重复图像。(慢慢地)

阅读更多

自然网站上的相关报道