2019年人工智能领域预测与展望
人工智能正在引领全球企业的创新——大型企业集团或年轻的初创企业。根据市场研究报告《来自技术和垂直行业的人工智能市场——全球机会分析和行业预测》,从2018年到2025年,全球人工智能市场预计将从2016年的40.65亿美元增长到1694.11亿美元,复合年增长率为55.6%。该报告按技术、行业垂直度和地区划分人工智能市场。人工智能技术细分为机器学习、自然语言处理、图像处理和语音识别。2016年,就收入而言,机器学习主导了人工智能市场。由于人工智能行业对解决方案的需求不断增加,这一趋势预计将在未来几年内持续下去。根据Statista的数据,最大一部分收入来自企业应用市场的人工智能。
以下是2019年人工智能领域的预测:
IBM、谷歌、微软、亚马逊和机器学习API提供商将发布更具包容性的数据集,以解决人工智能中的歧视和偏见。
机器学习是人工智能的主要形式,并已成功应用于许多不同的领域,如亚马逊的智能助手Alexa上的语音识别、带有脸书自动照片标签功能的人脸识别、无人驾驶汽车中的行人检测,甚至是根据你访问电子商务网站的记录向你展示鞋广告的决定。在机器学习中,决策是从人类决策和标签的现有数据记录中学习的。因此,为了让计算机区分狗和猫,我们给它看了许多有标记的狗的图像和许多有标记的猫的图像,以便它能学会理解它们之间的区别。这种看似无害的方法本身带来了一个严重的问题——偏见。如果我们盲目地将人类的标记和决定输入电脑,电脑可能会完全复制我们的偏见。臭名昭著的微软泰机器人是一个警告。
更糟糕但更微妙的是,数据本身的偏差并不代表我们想知道的庞大群体。例如,今年早些时候,Joy Buolawumi和Tunit Nit Gebru的研究表明,主流商业计算机视觉产品在灌输浅色皮肤男性形象时表现最好,而在将一个人的性别分类时灌输深色皮肤女性形象时表现最差。如果我们用来训练这些分类器的数据集没有包含足够多正确标记的有色人种,并且没有捕捉到更广泛的文化差异(不管他们来自哪里),这将是一个巨大的问题。
在这些非包含数据集上训练的机器学习模型对样本不足的人做出了明显有缺陷的决定。2019年,我们将看到拥有主流计算机视觉产品的大公司发布更具包容性的数据集。这些数据集将在地理、种族、性别、文化概念和其他方面变得更加平衡,它们的公开发布也将促使研究人员开展研究,以尽量减少人工智能的偏见。
随着使人工智能决策更容易解释的产品逐渐成为主流,人工智能将更多地用于医疗和金融服务
当人工智能基于算法做出容易解释的决策时,生活就简单多了。例如,该算法首先知道你是否头痛,然后查看你是否发烧,然后得出结论,你得了流感。这个过程可以解释。只要算法能够解释如何做出决策,不管它的预测是对还是错,它都有很大的价值。
在医学等领域,我们可能会使用机器来做出生死抉择,能够追溯并理解为什么机器会给出具体的行动建议显然非常重要。这在金融等领域也至关重要。如果人工智能算法拒绝向某人提供贷款,我们非常有必要了解原因——尤其重要的是确保没有任何理由的歧视。随着人工智能越来越成功,它越来越依赖于一种叫做“深度学习”的技术,这种技术使用许多神经网络层(因此它的名字带有“深度”一词)。在这些系统中,没有明确的方法来解释发生了什么以及为什么机器做出了决定。该系统就像一个极其精确的黑匣子,可以接收一系列症状、测量数据、图像、患者状态和病史数据,并可以输出高度精确的诊断结果。
例如,谷歌人工智能可以通过检查你的眼睛来预测你是否有患心脏病的风险!你的眼睛怎么了?没有人会轻易认为他的眼睛有问题!2019年,随着初创企业和大公司寻求在金融和医疗行业推广人工智能,将会有专门针对这些行业的业务支持系统,帮助我们反思深层神经网络,并更好地解释人工智能的预测。企业将试图完全自动化这些预测的解释过程,但成功的方法将使人类能够调查和探索“黑箱”,并更好地理解其决策,以便机器背后的人类能够提出自己的解释。
算法VS算法。除了“假新闻”,基于人工智能的人工智能系统还会受到其他领域的攻击
随着产生真实虚假图像和视频的技术的不断进步,以及欺骗机器学习算法的新方法(如虚假新闻)的出现——自动驾驶汽车和其他关键任务系统将面临新的安全问题。到目前为止,公众的注意力主要集中在图像、视频和音频上——总的来说,“假媒体”和“假新闻”猖獗——但在2019年,我们将看到某种攻击演示:生成令人信服但虚假的结构化和非结构化文本数据,导致机器在某些问题上的自动决策中出错,例如信用评分和从文件中提取数据。
迁移学习和模拟已经成为帮助企业克服冷启动问题和避免高培训数据积累成本的主流。
大多数人工智能项目的成功在很大程度上取决于高质量标记数据的可用性。大多数项目都死于这个问题,因为它们通常没有现成的关于手头问题的数据,或者很难手动标记所有现有数据。
例如,即使预测一个顾客是否会购买一个产品那么简单,当一开始没有顾客时,就会出现冷启动问题。如果你的企业从来都不是大企业,那么你将永远得不到使用最强大技术所必需的“大数据”。更糟糕的是,当需要专业知识时(例如,标记肿瘤),获取数千个数据标记是极其昂贵的。
人工智能研究的一个活跃领域是如何应对这些挑战。只有少量的数据,我们如何使用强大的深入学习技术?2019年,企业将更多采用两种方法。第一种有效的方法是转移学习——从一个有大量数据的领域学习的模型被用来重新训练机器在另一个有更少数据的领域学习。例如,着陆人工智能?生产线上目标对象的缺陷可以通过使用几个有缺陷产品的例子来检测。现在,任何人都可以从从大数据集(如ImageNet)中学习大量图像的模型开始,并训练专门的对象分类器(如区分损坏的汽车或房屋以及自动处理保险)。这些字段不需要基于相同的数据类型。研究人员使用从图像数据库中学习的模型来训练分类器并获取传感器数据。
第二种方法是生成和模拟合成数据。生成性对抗网络允许我们创建非常真实的数据。众所周知,Avida使用生成战网络生成了虚拟但非常引人注目的名人面孔。自动驾驶公司还创造了虚拟模拟场景,在这些场景中,他们可以在比现实生活更远的距离上训练驾驶算法。例如,Waymo无人驾驶汽车在模拟中行驶了50亿英里,而在现实世界中仅行驶了8英里。2019年,企业将使用模拟、虚拟现实和合成数据在机器学习方面取得巨大进步。在过去,由于数据限制,这是不可能的。
越来越多的隐私要求将推动更多的人工智能出现在边缘设备上,大型互联网巨头将陆续投资于边缘人工智能以获得竞争优势
随着消费者越来越倾向于将其所有数据移交给大型互联网公司,能够提供不需要将数据上传到云的服务的企业将享有竞争优势。业界普遍认为,产品和服务必须使用云来执行昂贵的机器学习操作,如人脸识别和语音识别。然而,硬件的进步和人们隐私保护意识的增强将推动更多的机器学习操作直接在移动电话和更小的边缘设备上进行,从而减少向*服务器发送潜在敏感数据的需要。这一趋势仍处于早期阶段,苹果等公司在移动设备上而不是在云上进行智能处理(运行机器学习模型)(例如,谷歌宣布推出使用CoreML及其专用神经引擎芯片的TPU边缘产品)。2019年,这一趋势将会加速,移动、智能家庭和物联网生态系统将推动机器学习在边缘设备上发生。
下一篇:研究揭示番茄激酶免疫机制
推荐阅读