深度学习框架加速AI算法开发和应用效率

科普小知识2022-10-16 21:43:32

...

随着人工智能的普及，出现了许多开源的深度学习框架，如Caffe、TensorFlow、MXNet、Torch等。有很多框架，如何选择？选择一个框架还是多个组合？应该为不同的场景或模型选择什么样的框架？选择多机并行框架需要多少数据？我们在深度学习框架下面临的这些挑战将不可避免地让许多人困惑。

最近，浪潮与美国一家知名互联网公司进行了一项联合测试，以评估主流深度学习框架。三个主流框架Caffe、TensorFlow和MXNet部署在浪潮智能机柜服务器平台上(配置有16个图形处理器卡)。ImageNet数据集用于测试AlexNet和GoogLeNet两种典型网络。

图片:泰德加入一家著名的美国互联网公司测试主流深度学习框架

从测试结果来看，运行AlexNet网络时，Caffe的性能最好，每秒4675张训练图片，16个图形处理器的加速比是单个图形处理器的14倍。第二个是MXNet，最后一个是TensorFlow。

在运行谷歌网络时，MXNet的性能最好，每秒可以训练2462张图片，16个图形处理器的加速比是单个图形处理器的12.7倍。第二个是卡夫，最后一个是张量流。

从这个评价来看，基于不同的网络，选择的最优框架是不同的。

基本上，有一个通用的原则可以选择:我们将根据不同的场景和模型选择至少一个深度学习框架。目前，很难说一个框架是否能在所有应用场景中表现最佳。

图像应用主要采用Caffe、TensorFlow和MXNET。如果是声音，CNTK可以选择。用于自然语言处理的PaddlePaddle。

对于具有大量数据的训练，用单台机器训练将花费很长时间，并且训练一个模型可能需要几周或几个月，这需要分布式框架。浪潮开发的深度学习框架Caffe-MPI实现了多机多显卡的并行训练。通过实际测试，Caffe-MPI同时使用16个图形处理器卡进行训练，处理效率为每秒3061个卡，比单个卡高13倍，扩展效率为81%，性能几乎是TensorFlow的两倍。

目前，浪潮咖啡-MPI框架是目前在Github开源的，提供免费下载。与此同时，浪潮还推出了人工智能管理软件AIStation，它可以提供从数据准备到培训结果分析的完整的深入学习业务流程，并支持各种计算框架，如Caffe、TensorFlow、CNTK，以及各种模型，如谷歌、VGG、ResNet等。AIStation支持对培训过程的实时监控和培训过程的可视化，并支持打印日志、培训错误或每一步损失函数值的测试错误。支持动态分配GPU资源，实现资源的合理共享，实现深度学习计算环境的“一键式”部署和培训任务的快速启动。它还可以实时监控集群的使用情况，合理安排培训任务，及时发现运行中的问题，提高集群的可靠性。

图片:浪潮艾管理软件艾思腾

此外，浪潮还可以为天眼的高性能应用特性提供监控和分析系统，量化超级计算软件的特性，提取和记录系统信息和微体系结构信息，如*处理器、内存、磁盘、网络等。在高性能计算机运行过程中由应用软件实时生成，帮助用户及时发现系统瓶颈，准确分析程序开发者的应用软件特性，帮助用户合理划分集群使用资源，提高使用效率。

凭借强大的人工智能计算平台、合适的开发框架以及高效的人工智能管理和监控软件，人工智能基础平台基本建成，剩下的就是通过优化算法将您拥有的数据转化为更有价值的资源。

上一篇：印度科学家*非宗教主义者被杀

下一篇：英开发出轻量高强度碳制导线