看人工智能如何改变科研
人工智能工具正在帮助发现数千个可能影响自闭症的基因。
资料来源:BSI SSA/alamystockphoto
寻找新粒子
20世纪80年代末,当“神经网络”这个术语吸引了公众的想象力时,粒子物理学家开始“玩弄”人工智能。他们的领域非常适合人工智能和机器学习算法的应用,因为几乎每个实验都集中在从复杂粒子探测器获得的无数相似数据中寻找微小的空间模式,这正是人工智能擅长的。"我们花了几年时间才让人们相信人工智能不是一个神秘的把戏。"波阿斯·克利马是第一批接受这项技术的物理学家之一,也是美国费米国家加速器实验室的研究员,他说。
粒子物理学家正试图使具有巨大能量的亚原子粒子碰撞产生独特的新物质粒子,从而了解宇宙的内部运作。例如,在2012年,一个使用瑞士大型强子对撞机(LHC)的研究小组,世界上最大的质子对撞机,发现了期待已久的希格斯玻色子。这是一个瞬态粒子,对于物理学家解释所有其他基本粒子如何获得质量至关重要。
然而,这种奇怪的粒子没有自己的标签。在LHC,经过近10亿次碰撞后,只有一个希格斯玻色子。与此同时,它将在十亿分之一皮秒内衰变为其他粒子,如光子当量。为了“重现”希格斯玻色子,物理学家必须认识所有那些更常见的粒子。然而,在典型的碰撞中产生的大量不相关的粒子使得这项任务更加困难。
费米实验室物理学家普什帕拉巴特说,像神经网络这样的算法擅长过滤背景信号。粒子探测器通常是由各种传感器组成的巨大圆柱形组件,光子通常在称为电磁热量计的子系统中产生粒子束。电子和强子也是以这种方式产生的,但是它们的束流和光子略有不同。机器学习算法通过寻找它们的相关性来区分描述波束的多个变量。这种算法也有助于区分希格斯玻色子衰变产生的光子对。"这是公认的大海捞针的问题."巴特说,“这也是为什么我们需要从数据中提取尽可能多的信息。”
然而,机器学习还没有完全占据这个领域。物理学家仍然主要依靠他们对基础物理学的理解来决定如何寻找新粒子和现象的迹象。然而,劳伦斯伯克利国家实验室的计算机专家保罗·卡拉菲乌拉说,人工智能可能变得越来越重要。到2024年,研究人员计划升级LHC,使其碰撞率增加十倍。卡拉菲乌拉说,到那时,机器学习将在应对数据洪流中发挥关键作用。
公众情绪分析
社交媒体每年产生数十亿用户和数千亿条推文和帖子,将大数据带入社会科学。同时,心理学家马丁·塞利格曼说,这也创造了一个前所未有的机会,利用人工智能来收集人类传播产生的意义。在宾夕法尼亚大学积极心理学中心,Seligman和来自全球幸福计划的20多名心理学家、医生和计算机专家一起,使用机器学习和自然语言处理来筛选大量数据,以衡量公众情绪和身体健康。
传统上,这是通过调查实现的。然而,塞利格曼表示,社交媒体数据“相对低调”,价格较低,比获得的数据高出几个数量级。虽然这些数据也是分散的,但是人工智能提供了一种获取模式的强大方法。
在一项新的研究中,Seligman和他的同事分析了29,000名自我评估抑郁的脸书用户的更新。机器学习算法使用了其中28000个单词的数据,发现了更新内容中的单词和抑郁程度之间的相关性。随后,它可以仅基于更新的内容成功地测量其他用户的抑郁水平。
在另一项研究中,该团队通过分析1.48亿条推文预测了县一级的心脏病死亡率。事实证明,与愤怒和负面情绪相关的词汇是危险因素。与基于吸烟和糖尿病等10个主要风险因素的预测相比,社交媒体的预测更接近实际死亡率。与此同时,研究人员利用社交媒体来预测个性、收入和政治意识形态,并研究住院治疗、神秘经历和刻板印象。该团队甚至利用从推特推断出的福利、抑郁、信任和五种个性特征,创建了一张标示美国每个县的地图。
"语言分析及其与心理学的联系正在发生一场革命."德克萨斯州大学的社会心理学家James Pennebaker说。Pennebaker关注的不是内容,而是风格。他发现在高考作文中使用虚词可以预测结果。冠词和介词象征分析性思维,表示更好的结果,代词和副词象征叙述性思维,表示较差的结果。潘尼贝克还发现了莎士比亚可能是1728年戏剧《双重背叛》的大部分作者的证据基于认知复杂性和稀有词等因素,机器学习算法将脚本与莎士比亚的其他作品进行匹配。"现在,我们可以分析你发布的甚至是写的任何东西."彭尼贝克说,结果是“人们的生活越来越丰富多彩。”
探索自闭症的原因
自闭症对遗传学家来说是一个棘手的挑战。遗传规律表明它有很强的遗传因素。然而,已知在自闭症中起作用的许多基因的变体只能解释大约20%的病例。寻找其他可能影响自闭症的变异体需要从25000个其他人类基因及其周围的DNA数据中寻找线索。对人类研究人员来说,这是一项艰巨的任务。出于这个原因,普林斯顿大学计算生物学家奥尔加·特罗亚斯卡娅和纽约西蒙斯基金会获得了人工智能工具的支持。
Troyanskaya结合了数百组数据,包括特定人类细胞中哪些基因是活跃的,蛋白质如何相互作用,转录因子结合位点和其他关键基因组特征位于何处。后来,她的团队利用机器学习构建了一张基因相互作用的地图,并将识别出的少数自闭症风险基因与数百种其他与自闭症相关的未知基因进行比较,以发现它们的相似性。这项研究确定了另外2500个可能与自闭症相关的基因。相关结果发表在去年的《自然神经科学》杂志上。
然而,正如遗传学家最近认识到的,基因不是孤立发挥作用的。它们的行为受到附近数百万个非编码碱基的影响。这些非编码碱基与DNA结合蛋白和其他因素相互作用。确定哪些非编码变异可能影响附近的自闭症基因是一个更困难的问题。Troyanskaya的研究生周健正在使用人工智能来解决这个问题。
周将该培训项目(一个深入的学习系统)与“DNA元素百科全书”和“表观基因组学路线图”收集的数据进行了对比。这两个项目梳理了成千上万个非编码DNA位点如何影响附近的基因。周使用了一个系统,当评估未知的非编码DNA的潜在活性时,该系统知道要寻找哪些特征。
当周和特罗亚斯卡娅在2015年10月的《自然-方法论》杂志上描述这个名为深海的项目时,加州大学欧文分校的计算机专家谢晓辉称之为“将深度学习应用于基因组学的一个里程碑”目前,研究小组正在通过深海研究自闭症患者父母的基因组,以期对非编码碱基的影响进行测序。(宗华编译)
阅读更多
科学相关报道
上一篇:竞赛帮助学生在科研中找到位置
下一篇:美2017财年科研预算不降反升