中科曙光针对高性能计算机群的运维平台正式上线
中新网4月23日电(记者张素)记者23日从中科曙光获悉,经过6个月的试运行,中科曙光面向高性能电脑群体推出的SaaS级专业在线平台易视正式上线。
今年3月,谷歌Alpha Go在与李世石的4:1人机大战中获胜后,一举成名。事实上,Alpha Go胜出的原因之一是它拥有强大的超级计算系统,运行稳定。
然而,当前基于高性能计算机集群(HPC)的信息技术中心的建设,往往使得能够提供服务的公司难以实现全生命周期的运营和维护服务。第三方高性能计算服务提供商不开发和生产,解决问题的效率不令人满意。
“易趣是道恩将‘互联网升级版’和高性能计算相结合的产物。它不仅帮助用户维护高性能计算系统,还希望通过使用用户系统为他们创造更多价值。中国科技曙光副总裁沙超群表示:“通过提供运行维护服务,各行各业的专家将从HPC的运行维护管理中解脱出来。
沙超群介绍,该平台有五项关键技术:实时远程采集监测数据、海量数据存储和显示、故障分析和定位技术、海量数据统计和分析、移动终端集成和推送。
中国科学院物理研究所研究员许告诉记者:“高性能计算集群的运行和维护以前一直是我们的一项艰巨任务,非常艰巨。访问EasyOP后,我们的运营和维护压力大大降低,运营和维护成本以及人力投资也减少了,高性能计算集群的安全性和效率也提高了。”
2015年11月,EasyOP出现在全国高性能计算学术会议上,并宣布试运行。记者了解到,从试运行的数据反馈信息来看,其表现是专业和全面的。在此期间,来自20组高性能计算集群的7800多个节点被访问,覆盖CAE、气象、海洋、物理、生物、材料和互联网6个主要领域,180多个指标用于全面监控所有访问集群资产。
根据专家分析,在监控的7,800个节点中,最高和平均CPU利用率分别为83%和70.1%,最高和平均内存利用率分别为40%和25.5%,最高和平均存储利用率分别为23%和20.3%。在EasyOP访问的资源作业中,中短期作业占近70%,作业排队率约为1/5。该多线程任务适用于监控高性能计算系统的所有子功能。
据统计,在六个月的试运行期间,所有集群自动触发了近2900个通知,其中2281个是由计算节点主要组件温度上升触发的次要通知。只有三个严重的类别通知,从侧面反映了曙光集群系统的高可靠性。
“曙光推出易视在线运维平台,引领中国高性能计算行业向互联网+转型,提升行业整体服务水平。”中国软件产业协会数学软件分会常务副秘书长姚继峰表示:“易视可以实现曙光与高性能计算用户的互联互通,这对创建“高性能计算生态系统”意义重大。(原名称:中科曙光高性能计算机集团运维平台正式上线)
下一篇:梅花避免药害发生的方法