各国竞相研制百亿亿次级超级计算机
日本的“K”超级计算机目前在500强中排名第10。
资料来源:时事出版社/法新社/盖蒂
今年7月初,田纳西州橡树岭国家实验室的工作人员开始在一个巨大的房间里放满计算机“怪物”的组件:一排排整齐堆放的计算单元,大约290公里长的光纤电缆,以及一个能够承载一池水的冷却系统。美国能源部(DOE)希望,当这台价值2.8亿美元的名为“顶点”的机器明年投入使用时,它将给美国一个自2012年以来失去的头衔:世界上最快的超级计算机的所在地。
根据设计,“顶点”将以200亿倍的峰值速度运行,即每秒200亿次浮点运算。这将使“峰会”比中国目前的世界纪录保持者快60%。
然而,对许多计算机科学家来说,完成“顶点”相当于完成一场长跑的第一圈。在世界各地,工程师和科学家团队正致力于处理能力的下一次飞跃:数十亿台二级计算机,运行速度达到惊人的1000亿倍或更快。目前,来自四个国家或地区的团队已经与当地计算机行业合作,朝着这一宏伟目标迈进。中国计划在2020年前运行第一台价值10亿美元的子机。美国计划通过能源部的“十亿子计算项目”,到2021年至少制造一台机器。欧盟和日本也将效仿。
速度不是一切
对于计算机科学家来说,“数十亿的次等级”的含义已经成为一个需要深入思考的问题。最简单的定义是计算机能够以100亿倍(相当于1000亿倍)的速度处理一组特定的线性代数方程。自1993年以来,一组研究人员已经使用这个叫做LINPACK的基准来启动500强超级计算机。
因此,LINPACK已经成为超级计算机的代名词。自2013年6月以来,中国制造的超级计算机一直排名第一。然而,田纳西大学的计算机科学家、前500名的创始人杰克·东加拉认为速度并不是一切。他将超级计算机的峰值与汽车速度表上的最高速度进行了比较。虽然达到每小时300公里的能力令人印象深刻,但真正给大多数汽车带来价值的是它们在日常驾驶中的表现。
同样,计算机执行某些线性代数运算的速度不一定反映其预测药物活性、训练大脑神经网络或执行复杂模拟的能力。所有操作对处理能力、可以并行处理的操作类型以及要移动的数据量都有不同的要求。美国能源部科学办公室高级科学计算研究副主任芭芭拉·海兰德认为,500强“并不能衡量硬件在实际应用中的表现。”
去年从英特尔退休的计算机科学家谢克·哈伯卡尔说,现实世界中的科学应用可能利用了这一速度的10%,但更常见的是只有1.5%~3%。根据博尔卡尔的预测,这种限制仍将存在于数十亿台超级计算机上。
担心峰值速度和实用性之间的脱节
在美国,人们越来越担心峰值速度和实用性之间的脱节,这导致了数十亿子计算的不同定义,即应用驱动。能源部的目标是使第一批10亿台二级计算机的性能比美国最快的系统——17.6亿倍于泰坦的系统——高出约50倍。例如,这可能意味着在给定时间内筛选的潜在太阳能材料要多50倍,或者在模拟全球气候时要多50倍的空间分辨率。
为了实现这些目标,能源部正与来自学术界、*和工业界的数百名研究人员合作。它已经成立了25个小组,每个小组的任务是设计软件。这些软件可以使用数十亿台辅助机器来解决特定的科学或工程问题,如发动机设计。阿尔贡国家实验室计算、环境和生命科学副主任里克·史蒂文斯(Rick Stevens)表示,美国数十亿次超级计算机成功的主要标准将是“运行25个应用程序的性能分数的几何平均值”。
在开发此类计算机的同时,该机构还试图改善超级计算机用户、软件开发商和负责硬件制造的半导体公司之间的合作。领导橡树岭国家实验室项目的计算机科学家道格·科特说,通过能源部数十亿的子项目,“我们把不同圈子的人聚集在一起”。这种联合用户和建设者的策略(所谓的协同设计)并不新鲜。但是科特说,“它从未被如此广泛地使用过。”
“我从事这个行业已经20年了,我第一次看到了这种合作和支持。”华府国家核安全局(NNSA)超级计算研究和运行项目经理Thuc Hoang说。
避免成为“噱头”机器
然而,博尔卡尔和其他一些观察家担心,这些正在建设中的数十亿子系统可能会成为在实际应用中表现不佳的“噱头”机器。"拥有更高的应用性能意味着以一种不同的、更现实的方式设计机器."Borkar认为“这显然会损害LINPACK的性能,并使该机器从市场角度看起来很糟糕。”
他还表示,希望美国将坚持早在2008年制定的计划,该计划将数十亿美元的二次改革视为一个更彻底地反思计算机行业发展的机会。“进化方法将会失败。”博尔卡尔说,“你需要一种革命性的方法。”另一方面,史蒂文斯认为巨大的变化正在悄然发生。根据他的预测,能源部将在圣诞节前后完成与英特尔的正式合同。少于此,“我不能透露我们在做什么,但这是非常创新的。”
然而,仍有一些因素限制了超级计算推广的激进程度。对于每一代新的超级计算机,程序员必须把他们的软件建立在他们所拥有的基础上。“我们有一些遗留代码。”黄禹锡说,她在NNSA的项目依靠超级计算机来维持美国的武器库,以遵守禁止试验核武器的规定。“考虑到我的办公室负责的工作,我们不能失去花了10年时间开发和验证的旧代码。”
与此同时,预算限制对美国数十亿的次级计划有决定性影响。根据计划,“奥罗拉”将是一台180亿英镑的机器,并将于2018年在阿尔贡开始运营。然而,能源部没有足够的资金委托外部公司生产数十亿次超级计算机硬件。为此,该机构没有发布公开招标公告,而是改变了与英特尔和克莱在奥罗拉的合同,要求后者在2021年前提供10亿美元的子设备。
与此同时,其他数十亿的子项目也在取得进展。中国仍计划最早在2020年前建造数十亿台二级超级计算机,并正在权衡三个原型。东加拉说,其中两个已经建在超级计算设施中,这些设施已经拥有了该国最快的机器,可能会改变该国首创的轻量级结构。第三个是黎明建造的。该公司与高性能芯片开发商AMD建立了良好的关系,因此可能会收购后者的主要微架构。东加拉认为,这种机器可能有新的特点,不同于轻量级结构。
研究人员也在考虑如何在未来几十年内超越数十亿个子系统,建造更快更好的超级计算机。建造这样一台超级计算机可能意味着采用一些仍处于开发初始阶段的技术:模拟大脑中神经元运作的神经形态电路或量子计算。
然而,许多研究人员主要关心的是确保该系统和为其开发的科学应用程序在数十亿个二级系统启动时能够正常运行。“让数十亿个子系统运行。”地狱说,“这就是我晚上失眠的原因。”(宗华编译)
上一篇:美的热水器出现e4是什么意思
下一篇:壁挂炉显示e9什么故障