英特尔AI硬件负责人Carey Kloss:什么是真正的AI芯片
编者按:5月23日,英特尔在美国旧金山举行了第一次人工智能开发者大会(人工智能开发者大会2018),推出了一种新的人工智能云芯片和人工智能策略。我们采访了英特尔人工智能产品部门(AIPG)副总裁兼人工智能硬件负责人凯里·克洛斯,请他为我们揭示NNP芯片的真实面目> >
现在,人工智能芯片的战争越来越激烈,英特尔也该拿出自己的“深水炸弹”了。这一次,最新版本的NNP芯片将会接管。
它的全名是Neveranna Nnp-l 1000(Spring Crest),支持BFOAT 16,这是一种在工业神经网络中广泛使用的数字格式。随着时间的推移,英特尔将在人工智能产品线上扩大对BFOAT 16的支持,包括英特尔至强处理器和英特尔FPGA。英特尔神经网络处理器的目标是实现高计算利用率并支持多芯片互连的真实模型并行性。
该产品由英特尔人工智能产品部门(AIPG)主导,该部门是英特尔人工智能的第一个部门,负责规划和实施人工智能的研发和产品路线。凯里·克劳斯是人工智能硬件的负责人,自1996年以来一直在芯片行业工作。
芯片专家来自内尔瓦纳。该公司于2016年并入英特尔。他们几乎占据了半个AIPG。凯里和纳威娜首席执行官拉奥一起加入英特尔。目前,首席执行官纳文·拉奥是英特尔人工智能战略的首席规划师,并担任英特尔副总裁。
这一次,关于更多新的人工智能云芯片,网易智能对凯里进行了独家采访。
性能提高3到4倍,而不用担心竞争对手
问:湖人队和春冠队的主要区别是什么?
凯里:湖人队是以前的设计,是一个更稳定的处理器。我们在创业时就开始使用它。进入一个更现代的工艺节点,我们集成了更多的芯片(硅芯片)以实现更快的加工速度。
我们认为湖冠作为软件开发工具更好,部分是因为我们支持bfloat。客户更希望直接获得结果,而不是在中间做一些工作。
关于Spring Crest的过程节点,我们没有发布任何关于哪些产品使用过程节点的信息。因为制造硅片需要一些时间,把硅片变成新的神经网络处理器也需要时间,这就是推迟到2019年上市的原因。
就性能而言,莱克佳洁士作为我们的第一代处理器,现在正被用作软件开发工具,并且我们在GEMM和卷积神经方面都取得了非常好的计算利用率。此外,这不仅是吞吐量的96%的利用率,而且我们在大多数情况下在没有完全定制的情况下实现了高于80%的GEMM计算利用率,这也是显著的。
当我们开发下一代芯片Spring Crest时,我们保持了高计算利用率,新产品的性能提高了3到4倍。
问:湖冠的计算利用率以前达到96%,但春冠的计算利用率稍低。为什么?
凯里:事实上,这是我的主意。如果利用率适当降低,在某些情况下实际上可以达到98%。在不存在资源冲突且每个硅片都能完全运行的情况下,利用率可以计算为99%甚至100%。
每个架构都有一些可以充分利用的情况,不管它们是否真实。我想在Spring Crest幻灯片上展示的是在大多数情况下可以实现的利用率。当然,我们可以在基准测试中展示100%计算利用率的例子,但是我想展示的是,许多用例将具有非常高的利用率。
问:芯片的后期发布会对英特尔的市场竞争产生负面影响吗?
凯里:我认为我们逐步转向流动性是一个重要的考虑因素,因为如果这是市场需要的,那么我认为我们会很快做出反应。我不知道我们竞争对手的路线图是什么,但我认为我们的反应相对较快,所以我认为我们在神经网络处理方面不会处于劣势。
Bfloat最近变得更流行了。据我所知,在过去的四个月里,有几个顾客来找我们,并特别要求bfloat。
问:哪些类型的客户或行业对春冠感兴趣?
凯里:springcrest可以说是*别的Nervana神经元处理器架构。
因此,它拥有相同的客户,如超大型中心、超大型CSP,以及已经拥有相当强大的数据科学工作的大型企业客户,如*和其他企业。
我想从另一个顾客不感兴趣的角度来回答这个问题。数据科学或人工智能仍然相对较新。这是一个非常热门和激动人心的领域,而且变化很快。传统企业客户可能拥有数据,但他们可能无法在其数据中心部署高端设备。我们作为英特尔提供的服务、我们的路线图和我们的总体战略是提供整个产品组合。您可以开始基于nGraph和至强处理器工作。您的数据中心已经部署了英特尔至强处理器,那么您没有理由购买神经网络处理器或其他类似产品。您拥有至强处理器,并围绕至强处理器开展一些工作,就可以获得您的数据状态。
然而,如果你发现神经网络可以帮助你,并试图找出如何从中赚钱,你可以说你在这个时候更认真地对待它。当然,英特尔可以提供神经网络处理器产品,使您能够进行更严格的培训。现在,您可以购买许多NNP产品并使用相同的软件堆栈,您可以获得相同的优化和优化路径,并且可以针对不同的硬件进行优化。根据您的需要,甚至可以使用不同的佳洁士或至强处理器。或者,您已经开始了培训阶段,您的数据科学家已经开始尝试培训不同的模型,现在您的需求是大规模部署推理阶段。
最重要的是,它不是一个满足所有要求的解决方案。如果您需要低延迟的小型机型,至强处理器可以帮助您。它可以将数据从云移动到手机。如果它是一个大型模型,而不仅仅是处理一种类型的数据,那么您需要一些更具体的部署来进行推断。这与我们今天早上的声明有关。这里有一个潜在的暗示,我们正计划为数据中心提供加速推理,尽管更多的细节无法透露。
集成资源快速迭代的初始团队只有45人。
问:你在开发新芯片时遇到了什么样的困难?
凯里:让我们先来谈谈克雷斯特湖。我们开始研究和开发湖冠在我们的业务开始。我们整个团队大约有45人。当时,我们正在建造一个最大的芯片,我们开发了氖,我们还建造了一个云堆栈。所有这些都是由40-45人的团队完成的。
这是一个挑战。该公司成立于2014年。芯片直到去年才真正问世。三年并不短。现在一切都是新的。我们现在属于英特尔,可以访问英特尔的资源。过程变得简单了。同时,有足够的员工同时开发多代处理器,就像一个真正的*处理器公司。
我想我已经具备了明年成功的所有要素。小团队的成长将是痛苦的。我们花了很长时间才生产出第一批产品,但我们现在的速度还算合理。现在我们每年都看到进步。目前,我们的人员配置是合理的,资源是适当的,我们可以做得更好。
问:但是整合所有必要的资源并不容易,是吗?
凯里:当然,这不是一件容易的事情,但英特尔在向市场推出产品方面有丰富的经验。我在大大小小的不同公司工作过。英特尔给我留下了深刻的印象。英特尔拥有我所见过的最好的后硅培养和架构分析。对于芯片生产,我们有数百个系统同时运行。
此外,同事们不分昼夜地在一起工作,不仅来自内尔瓦纳,也来自6个月前刚加入的员工。当然,数百名员工很难朝着同一个愿景努力,但英特尔是我经历过的更好的公司。
问:什么是湖冠规划模型?它和图形处理器相似吗?
凯里:不,从更高的层面来看,任何加速器都是一样的。您已经为特定层编写了一个内核,将内核放在设备中,然后将数据存储在设备上,如此而已。
所以从这个角度来看,它们非常相似。在较低的层次上,湖冠和冠族通常没有共享的L2缓存,它有软件控制的内存。因此,软件工程师或内核开发工程师可以控制存储器中的内容,控制存储器中的保留时间,控制从处理元件到处理元件的内容,以及从芯片到芯片的内容。它是静态的,您不需要处理缓存冲突。
之所以可能,是因为在深度学习中,您可以提前知道所有操作,内核开发工程师可以更轻松地保留数据、移动数据和优化性能。我们可以这样做,因为我们不需要做随机指令,我可以提前知道指令。
所有这些对数据科学家来说都是隐藏的。数据科学家从来不想在GPU周围编码。他们只是想要高速。这就是Nervana图形处理器内核的提供方式。我们有世界上最快的GPU内核。我们有一些客户可以使用的FT16内核。这也是内尔瓦纳比硬件更出名的地方。实际上并没有讨论硬件。这些高速内核使数据科学家能够从当时的硬件中获取最多的内容,而不会受到低级细节的干扰。这是一个很好的模式,因为计算机结构可以在不同的产品中改变,并且因为除了位于英特尔的专业核心团队之外,没有人直接在硬件上编写代码,我们可以管理这种改变,并且总是尽可能地优化硬件,添加指令,添加功能,改变工作方式,并且在不影响数据科学的情况下改变bfloat。
积极应对行业变化新芯片明年上市
问:数据科学家本身并不关注硬件?
凯里:是的,我认为数据科学家并不真正关心潜在的问题。他们只是希望它会很快。他们不在乎法拉利是电动还是混合动力,V12还是4缸。他们只想在三秒钟内看到从0到60。
问:与CUDA相比,nGraph有哪些优势?
凯里:恩格拉夫仍然不同于CUDA。CUDA可以理解为nGraph的底面,我们称之为变压器。n图通过一个固定的API接收来自TensorFlow、Caffe或MXNet的输入,然后通过图编译器执行性能优化以消除一些不必要的东西,然后将其发送给CPU的MKL-DNN。所以*处理器仍然使用MKL-DNN,即使是在nGraph。同样,我们也需要一个用于佳洁士的变压器,我们也需要一个用于其他英特尔硬件的变压器。
问:有什么数据或基准可以说明春冠目前的运行速度吗?
凯里:我们暂时还没有公布具体的数字。与湖冠相比,我们的表现提高了3-4倍。根据客户的反馈,我们在整个设计过程中提高了性能。
问:有些人认为我们正处于部署算法的早期阶段。你认为算法的潜在变化是什么?
凯里:我认为算法和硬件之间有一点共生关系,反之亦然。
如果回顾过去,在过去的几年里,GEMM核心在GPU上将会非常快,所以当时所有的深入学习都指出了如何使用GEMM核心来工作,因为这是GPU能够快速处理的唯一地方。今天,GPU上有许多新的内核,数据科学家指出了许多新的写内核。我们的硬件介于两者之间,它没有完全固定的功能。我们的硬件处理各种激励功能,通过bfloat处理各种浮点运算,并且我们控制设备执行超出当前浮点范围的操作。你的GEMM和你的回旋神经将被超级优化。我们不会像其他竞争者一样有固定的功能。我们不会将它们用于通用目的,如GPU。我认为我们处于一个很好的中间点,在未来几年内不会过时。随着时间的推移,我们将添加更多的通用硬件来处理更多的混合工作负载。
问:你是如何制定人工智能路线图的?这背后的考虑是什么?
凯里:我们的路线图和任何人的路线图都相似:更大、更强、更快。
我们每年都进行渐进的结构调整以提高性能,如果行业中有任何新的东西与我们的硬件产品组合相关,我们将采取行动。(结束)