2022 LS30 | 浅谈英特尔Habana Gaudi 2加速器技术领先性

2022-12-20 05:47:00 [ 中关村在线原创 ] 作者：十一

ZAO 2022中关村在线年度观察推选年度领先解决方案Leading Solutions 30（以下简称LS30），为行业用户提供更好的选择，助力行业优质解决方案与技术方案。

中关村在线认为，2022年英特尔推出的Habana Gaudi 2处理器可以参与本次终极评选。Habana Gaudi 2处理器采用了7纳米制程工艺，以Habana的高能效架构为基础，面向数据中心的计算机视觉和自然语言应用，旨在为客户的模型训练和推理提供更高的性能。

●对数据中心的意义：助力实现高效AI训练

现如今，人工智能正从技术概念走向千行百业，实现多场景的实际落地，可以看到的是，人工智能热潮正推动AI芯片市场不断焕新。据Allied Market Research报告，全球机器学习芯片市场规模到2025年将达到约378亿美元。这不仅驱动着传统芯片公司战略和技术的转型，也推动了大量新玩家入局，在延续性或颠覆性创新方面频出奇招。

今年英特尔推出的用于高性能深度学习AI训练的Gaudi处理器，能够让客户以较低成本进行更多训练。最新发布的Habana Gaudi2是基于Synapse AI软件栈开发的，能够通过支持多样化架构，让终端用户充分利用处理器的高性能和高能效。

对于数据中心而言，由于数据集和人工智能业务的规模和复杂性日益增长，训练深度学习模型所需的时间和成本越来越高，根据IDC的数据，在2020年接受调查的机器学习从业者中，有74%的人对其模型进行过5-10次迭代训练，超过50%需要每周或更频繁地重建模型，26%的人则每天甚至每小时会重建模型。56%的受访者认为培训成本是阻碍其组织利用人工智能解决问题，创新和增强终端客户体验的首要因素。英特尔推出的Habana Gaudi 2处理器采用了7纳米制程工艺，并以Habana的高能效架构为基础，面向数据中心的计算机视觉和自然语言应用，旨在为客户的模型训练和推理提供更高的性能。

●技术解析：全方位升级有效提高训练性能

基于与第一代Gaudi相同的体系架构，Habana Gaudi 2处理器大幅提高了训练性能。客户在云端运行Amazon EC2 DL1实例以及本地运行Supermicro Gaudi训练服务器时，其性价比比现有GPU解决方案提升了40%，这些都来自于Gaudi2在架构上的进步：包括制程工艺从16纳米跃升至7纳米；在矩阵乘法（MME）和Tensor处理器核心计算引擎中引入了FP8在内的新数据类型；Tensor处理器的核心数量由8个增至24个；芯片上集成多媒体处理引擎，实现从主机子系统的卸载；片内封装的内存容量提升了3倍，从32GB提升到带宽2.45TB/秒的96GB HBM2E；两倍48MB的板载SRAM存储器以及基于RDMA (RoCE2) 的集成以太网从10个增至24个，在标准网络上实现高效的纵向和横向扩展。

2022 LS30 | 浅谈英特尔Habana Gaudi 2加速器技术领先性

从MLPerf行业测试中的表现也可以看出来，Habana Gaudi 2处理器在视觉（ResNet-50）和语言（BERT）模型上相比NVIDIA A100训练时间上拥有不小的优势。

相比于第一代Gaudi处理器，Habana Gaudi 2处理器在ResNet-50模型的训练吞吐量提高了3倍，BERT模型的训练吞吐量提高了4.7倍。这些归因于制程工艺从16纳米提升至7纳米、Tensor处理器内核数量增加了三倍、增加GEMM引擎算力、封装的高带宽存储容量提升了三倍、SRAM带宽提升以及容量增加一倍。对于视觉处理模型的训练，Gaudi2处理器集成了媒体处理引擎，能够独立完成包括AI训练所需的数据增强和压缩图像的预处理。

两代Gaudi处理器的性能都是在没有特殊软件操作的情况下通过Habana客户开箱即用的商业软件栈实现的。

通过商用软件所提供的开箱即用性能，在Habana 8个GPU服务器与HLS-Gaudi2参考服务器上进行测试比对。其中，训练吞吐量来自于NGC和Habana公共库的TensorFlow docker，采用双方推荐的最佳性能参数在混合精度训练模式下进行测量。值得注意的是，吞吐量是影响最终训练时间收敛的关键因素。

2022 LS30 | 浅谈英特尔Habana Gaudi 2加速器技术领先性

●行业影响和用户需求：数据中心按需加速，让深度学习更“快”

通过将Habana Gaudi 2部署到数据中心，可针对计算机视觉与自然语言处理的模型训练与推理提供更高效能，并解决客户最关注的两个问题：降低服务器处理成本，还能减少训练模型所需时间。Habana Gaudi2和Greco AI加速器是基于Synapse AI软件栈开发的，能够通过支持多样化架构，让终端用户充分利用处理器的高性能和高能效。

同时，借助Habana Labs的Gaudi平台，数据中心团队能够专注于深度学习处理器技术，让数据科学家和机器学习工程师得以高效地进行模型训练，并通过简单的代码实现新模型构建或现有模型迁移，提高工作效率的同时降低运营成本。

●结语

针对主要为云计算、边缘计算等需求提供算力的“基础算力”领域，英特尔发布的第二代Gaudi处理器Habana Gaudi2，在深度学习上实现了重点飞跃，能够通过支持多样化架构，让用户充分利用处理器的高性能和高能效，以更高的性价比训练数据中心负载。毫无疑问的是，在服务器或服务器集群主要用于深度学习训练和推理计算的场景中，Habana Gaudi2是理想的加速器，针对这些专用场景，它能够提供优异的深度学习性能并降低总体拥有成本。