欢迎您访问科普小知识本站旨在为大家提供日常生活中常见的科普小知识,以及科普文章!
您现在的位置是:首页  > 科普文章

深度学习框架加速AI算法开发和应用效率

科普小知识2022-10-16 21:43:32
...

随着人工智能的普及,出现了许多开源的深度学习框架,如Caffe、TensorFlow、MXNet、Torch等。有很多框架,如何选择?选择一个框架还是多个组合?应该为不同的场景或模型选择什么样的框架?选择多机并行框架需要多少数据?我们在深度学习框架下面临的这些挑战将不可避免地让许多人困惑。

最近,浪潮与美国一家知名互联网公司进行了一项联合测试,以评估主流深度学习框架。三个主流框架Caffe、TensorFlow和MXNet部署在浪潮智能机柜服务器平台上(配置有16个图形处理器卡)。ImageNet数据集用于测试AlexNet和GoogLeNet两种典型网络。

图片:泰德加入一家著名的美国互联网公司测试主流深度学习框架

从测试结果来看,运行AlexNet网络时,Caffe的性能最好,每秒4675张训练图片,16个图形处理器的加速比是单个图形处理器的14倍。第二个是MXNet,最后一个是TensorFlow。

在运行谷歌网络时,MXNet的性能最好,每秒可以训练2462张图片,16个图形处理器的加速比是单个图形处理器的12.7倍。第二个是卡夫,最后一个是张量流。

从这个评价来看,基于不同的网络,选择的最优框架是不同的。

基本上,有一个通用的原则可以选择:我们将根据不同的场景和模型选择至少一个深度学习框架。目前,很难说一个框架是否能在所有应用场景中表现最佳。

图像应用主要采用Caffe、TensorFlow和MXNET。如果是声音,CNTK可以选择。用于自然语言处理的PaddlePaddle。

对于具有大量数据的训练,用单台机器训练将花费很长时间,并且训练一个模型可能需要几周或几个月,这需要分布式框架。浪潮开发的深度学习框架Caffe-MPI实现了多机多显卡的并行训练。通过实际测试,Caffe-MPI同时使用16个图形处理器卡进行训练,处理效率为每秒3061个卡,比单个卡高13倍,扩展效率为81%,性能几乎是TensorFlow的两倍。

目前,浪潮咖啡-MPI框架是目前在Github开源的,提供免费下载。与此同时,浪潮还推出了人工智能管理软件AIStation,它可以提供从数据准备到培训结果分析的完整的深入学习业务流程,并支持各种计算框架,如Caffe、TensorFlow、CNTK,以及各种模型,如谷歌、VGG、ResNet等。AIStation支持对培训过程的实时监控和培训过程的可视化,并支持打印日志、培训错误或每一步损失函数值的测试错误。支持动态分配GPU资源,实现资源的合理共享,实现深度学习计算环境的“一键式”部署和培训任务的快速启动。它还可以实时监控集群的使用情况,合理安排培训任务,及时发现运行中的问题,提高集群的可靠性。

图片:浪潮艾管理软件艾思腾

此外,浪潮还可以为天眼的高性能应用特性提供监控和分析系统,量化超级计算软件的特性,提取和记录系统信息和微体系结构信息,如*处理器、内存、磁盘、网络等。在高性能计算机运行过程中由应用软件实时生成,帮助用户及时发现系统瓶颈,准确分析程序开发者的应用软件特性,帮助用户合理划分集群使用资源,提高使用效率。

凭借强大的人工智能计算平台、合适的开发框架以及高效的人工智能管理和监控软件,人工智能基础平台基本建成,剩下的就是通过优化算法将您拥有的数据转化为更有价值的资源。