“AI是塑造下一代计算的决定性技术,也是AMD更大的战略增长机会。”在数据中心与AI技术首映”上,AMD董事会主席兼首席执行官苏姿丰博士坚定地说。毫无疑问,以Chat GPT为代表的生成式AI让人们看到了智能世界的全新未来,基于庞大数据集的各类大模型席卷而来,千行百业的全面云化正在加速,这一切都对传统的计算基础架构提出了新的挑战。对此,AMD显然已经做好了准备。
AMD面向云原生计算、技术计算、网络和AI的战略布局
在本次大会上,AMD推出了第四代AMD EPYC 97X4处理器,这一曾经代号为“Bergamo”的处理器基于Zen 4c架构,每个插槽具有128 个内核,充分考虑了云原生工作负载所需的线程密度和规模,提供了更高的能效,使得每台服务器可以支持更多的容器,这些升级体现在每瓦特的性能有着更好的表现,在密度上将对核心进行了优化,让现有架构内的利益最大化,在性能方面做了缓存层级优化,以获得更多的吞吐量。为了更好的满足云端的场景需求,Zen 4c的核心在主频上并没有Zen 4高,但是却换来了更高的核心密度,能效更优,可以说在频率、核心密度、能耗方面找到了比较好的平衡点。
AMD EPYC 97X4 CPU
通过削减Zen 4的L3缓存,AMD在每个CCD的核心数量上,Zen 4c把Zen 4的8个提升到16个,相当于在每个插槽上的核心数量增加了33%,最终可以容纳128个核心。Zen 4c的内存选择了12通道的DDR5,支持ECC功能,频率达到4800MHz。SP5平台具有全新的插槽,第三代AMD infinity fabric提供了四个链路连接,速度可以达到3232Gbps,用户可以根据需要选择单槽和多槽的解决方案。同时,64条I/O通道可以支持CXL 1.1和更多的功能。安全性方面,专门的安全子系统提供了更强的可靠性,拥有信任根的硬件特性、SME的安全内存加密,以及安全虚拟化的功能。
在第四代AMD EPYC 97X4处理器的应用上,Meta与AMD共同展开了探索,落地在Instagram、WhatsApp等应用场景中,与第三代AMD EPYC相比,Meta使用97X4处理器获得了显著的性能提升和TCO改进,双方还为针对Meta的功效和计算密度优化EPYC CPU进行了深入研究。
在Genoa-X中,AMD增加了每核心的缓存数量,以满足较重的工作负载所需的高性能,降低所受带宽的影响。在一个芯片面积上,容纳了12个CCD,且每个CCD的L3缓存提升了三倍,I/O Die和CCD之间可以实现单连接和双连接。由于I/O结构没有改变,使得合作伙伴可以对新产品进行快速、无缝的设计、集成和部署。
AMD EPYC 9004系列处理器的核心数量达到128个,每颗CPU中具有混合的芯片组架构,核心为台积电代工的5纳米工艺,I/O Die则采用6纳米工艺。除了12通道4800 MHz内存频率、128个通道速度32Gbps+8个通道8Gbps之外,CXL 1.1、CXL 3等多种新的内存技术同样可以支持。安全性方面,该处理器支持数据定位、AMD- C ECC(内存自动纠错)、错误实时采集,以及SEV-SNP等安全增强的功能,并且支持AES 256 STS。
AMD EPYC 9004系列处理器的基础之上,采用AMD 3D V-Cache技术的第四代AMD EPYC处理器为技术计算带来了更强的体验,以支持计算流体动力学(CFD)、有限元分析(FEA)、电子设计自动化(EDA)和结构分析等严苛的工作负载,该处理器内置了96个Zen 4核心和1GB+三级缓存,可以在Ansys CFX中每天完成更多的设计任务,大幅加速产品开发。
4th Gen AMD EPYC with AMD 3D V-Cache Technology
3D堆叠得益于AMD的Chiplets技术,可以更好的发挥能效优势。通过芯片下方的3D缓存供电等设计,缓存容量得到了更好的扩展。3D V-Cache的内部互联密度要比2D封装大200倍,比Micro Bump 3D封装大15倍/能效高3倍。这样一来,就可以帮助Genoa-X较Genoa在处理EDA负载时的性能提升70%。将3D堆栈设计在CCD之上,与元器件之间的距离相近,再加上三倍的缓存提升和低功耗,是其达到高能效的重要原因。
与英特尔第四代至强可扩展处理器(8490H)的对比
与英特尔第四代至强可扩展处理器(8462Y)的对比
在会议上,微软宣布基于采用AMD 3D V-Cache技术的第四代AMD EPYC处理器的Azure HBv4和HX实例全面投入使用。该产品针对更为苛刻的HPC应用程序进行了优化,与上一代HBv3相比,其最新的实例提供了5倍的性能提升,并可扩展到数十万个CPU核心。
微软基于采用AMD 3D -Cache技术的第四代AMD EPYC处理器的Azure HBv4和HX实例投入使用
AMD在AI领域的投入同样是战略级的,其公布了一系列覆盖云、边缘、终端的硬件产品组合,以及开放的AI软件生态计划。其中,基于下一代AMD CDNA 3架构的AMD Instinct MI300X加速器(Q3送样)支持192 GB的HBM3内存,可以满足大型语言模型和生成式AI在推理、训练时所需的计算和内存效率,AMD Instinct平台则可以把八个MI300X加速器整合(1.5TB HBM3内存)为标准设计提供。AMD还宣布,全球首款用于HPC和AI工作负载的APU加速器AMD Instinct MI300A已向客户提供样品。MI300系列内置了异构计算的混合芯片,有着独特的3D缓存设计,CPU和GPU核心可以共享内存,能够做到更好的每瓦性能和低功耗。
AMD的AI平台覆盖云、边缘、终端的训练和推理场景
AMD Instinct
除此之外,AMD还展示了用于数据中心加速器的ROCm软件生态系统,并表示正在与行业领导者们协作,建立一个开放的AI软件生态系统。会议期间,PyTorch介绍了AMD和PyTorch基金会之间的工作,可以实现ROCm软件堆栈的上游配置,并为所有AMD Instinct加速器上的ROCm 5.4.2版PyTorch 2.0提供即时“零日”支持。这种集成为开发人员提供了广泛且由PyTorch支持的AI模型,这些模型兼容并在AMD加速器上“开箱即用”。 面向AI开发者的开放平台Hugging Face宣布将在AMD平台上优化数千个Hugging Face模型,从AMD Instinct加速器到AMD锐龙和AMD EPYC处理器,再到AMD Radeon GPU和Versal,以及Alveo自适应处理器。
AMD与PyTorch的合作
快速、智能、可靠的网络连接是构建下一代数据中心的重要保障。在会议上,AMD展示了包括AMD Pensando DPU、AMD超低延迟NIC和AMD自适应NIC在内的一系列网络产品组合。AMD Pensando DPU可以将软件堆栈与“零信任安全”和可编程数据包处理器相结合,打造更为智能、性能更强的DPU。AMD还发布了AMD Pensando Software-in-Silicon Developer Kit(SSDK),使客户能够快速开发或迁移服务以部署在AMD Pensando P4可编程DPU上,与AMD Pensando平台上已经实现的现有丰富功能集相配合使用。
AMD P4 DPU
AMD Pensando SmartNICs
目前,AMD Pensando DPU已在IBM Cloud、Microsoft Azure和Oracle Compute Infrastructure等云合作伙伴中大规模部署。在企业中,其被部署在HPE Aruba CX 10000智能交换机中,与IT服务公司DXC等客户合作,作为VMware vSphere Distributed Services Engine的一部分,为客户加速应用程序性能。AMD还透露了代号为“Giglio”的下一代DPU路线图,与当前一代产品相比,该路线图旨在为客户带来更高的性能和能效,预计2023年底上市。
HPE Aruba CX 10000智能交换机
会议上,AMD和AWS展示了由第四代AMD EPYC处理器支持的下一代亚马逊弹性计算云(Amazon EC2)M7a实例预览。亚马逊透露,EC2 M7a实例提供了新的处理器功能,如AVX3-512、VNNI和BFloat16,并允许客户获得比M6a实例高出50%的计算性能,并为AWS带来更广泛的工作负载。目前,双方已为通用、计算优化、内存优化和高性能计算工作负载提供了100多个基于EPYC处理器的实例。DNT、Sprinklr和TrueCar等客户均已从基于AMD的亚马逊EC2实例的显著的成本和云利用率优化中获益。在本次会议之外,Oracle也宣布计划提供搭载了第四代AMD EPYC处理器的全新Oracle计算基础设施(OCI)E5实例。
AMD和AWS展示了由第四代AMD EPYC处理器支持的下一代Amazon EC2 M7a实例预览
AMD的全线新品发布
可以看到,AMD并未满足于在传统x86市场的快速发展,而是将目光望向了更为广阔的AI和云原生领域,在计算、网络、软件等领域全面发力,为智能时代的下一代数据中心奠定了坚实的基础。
本文属于原创文章,如若转载,请注明来源:加速AI和云原生的无限未来 AMD为下一代数据中心奠定关键基础https://server.zol.com.cn/821/8214914.html