人工智能走进植物分类学领域
植物标本的数字化为研究人员开辟了一个全新的世界。
照片来源:peter macdiarmid/gettymages
研究人员报告说,通过用成千上万种保存下来的植物的图像训练计算机算法,后者成功地学会了自动识别被压扁、干燥并载入植物样本卡的物种。
这项研究最近发表在《生物医学委员会进化生物学》杂志上,是第一次尝试使用深入学习来解决在自然历史收藏中识别物种的困难分类任务。深度学习是一种人工智能技术,它教会神经网络使用大而复杂的数据集。
全球自然历史博物馆正在竞相将其收藏数字化,即将标本图像存储在一个开放的数据库中,以便世界各地的研究人员都能搜索到它们。数据聚合器之一,美国国家科学基金会的iDigBio项目,从美国收集了超过1.5亿张植物和动物图像。
世界上大约有3000个标本室,据估计有3.5亿个标本被保存下来——只有一小部分被数字化了。然而,不断扩大的数据集和计算技术的发展吸引了哥斯达黎加科学技术研究所的计算机专家埃里克·马塔-蒙特罗和法国国际农业研究发展中心的植物学家皮埃尔·邦纳,来看看他们如何使用这些数据。
Bonnet的团队通过Pl@ntNet项目在自动化工厂识别方面取得了进展。它已经积累了数百万幅新鲜植物的图像。人们在田间收集这些植物,通常使用智能手机上的软件来识别样本。
研究人员使用从扫描植物标本卡获得的26000多幅图像来训练类似的算法。计算机程序最终能以近80%的准确率识别植物种类。宾夕法尼亚州立大学的古植物学家彼得·威尔夫说,这可能比分类学家的表现好得多。
邦纳说,这样的结果经常让植物学家担心,他们中的许多人觉得自己的领域被低估了。"人们觉得这样的技术会降低植物学专业知识的价值。"邦纳说,“但这种方法只有在人类经验的基础上才能成功。它永远不会抹杀人类的专业知识。”此外,人们仍然需要确认这些结果。
这种方法可能有助于植物标本室处理新样本,从而简化有时需要几个小时才能完成的繁琐任务。类似的努力将在其他项目中派上用场,比如正在进行的众包项目,该项目允许人们手动标记哪些植物标本以花或树为特征。吉尔·尼尔森是iDigBio项目的数字专家,也是佛罗里达州立大学的植物学家,他说研究人员肯定会欢迎以自动化的方式完成这项工作。
邦纳说,该算法还可以帮助较小的植物标本馆识别物种。他领导的团队发现,使用大型植物标本馆的大规模数据集训练算法,提高了对数据相对贫乏地区的植物进行识别和分类的努力。这一发现在生物多样性丰富但植物种类较少的地区尤其有用。
同时,这种深入的学习方法将使研究人员能够进行额外的分析工作。植物样本包含丰富的数据:例如,样本采集的时间和地点,采集时植物是开花还是结果,以及花簇的密度。由于一些样本已经有100多年的历史,这些数据可以描述植物如何适应气候变化的图像。在气候变化的背景下,这一领域越来越受到人们的关注。
尼尔森说,类似的努力,包括身份研究,是数字化的下一个阶段。“我们正试图过渡到一种方法,可以用来挖掘这些图像的深层含义,并从中获得有用的数据。”内尔索说,“这是我们当前关注的焦点。”
该项目不仅限于植物标本馆。尼尔森描述了正在进行的自动识别果蝇的努力,而威尔夫正与合作伙伴一起对植物化石进行类似的分析。这些化石还带来了其他问题,部分原因是它们以各种形式存在——水果和花朵化石、树干化石或岩石中的树叶化石。相比之下,植物样本卡片要统一得多:它们平坦、干燥,通常放在标准尺寸的纸上。然而,尽管在这个领域仍有一些细节,威尔夫坚信它们最终会被破解。(宗华编译)
阅读更多
自然网站上的相关报道
上一篇:美加州推进气候研究计划