01Intel发布至强6能效核新品
产品:酷睿 i7 13700KF Intel CPU在第五代至强可扩展处理器发布后的半年,第六代至强也从幕后来到了台前。当然,与英特尔之前在至强路线图中规划的一致,本次发布的是至强6处理器的能效核(E-Core)新品。
自ChatGPT、Sora等应用揭开AI时代的帷幕以后,越来越多的企业都洞察到了人工智能在提升商业竞争力方面的潜力,并开始尝试将生成式AI融入到不同的商业模式之中。不可否认的是,作为先进生产力,AI正在催生和引领新一轮的科技革命和产业变革,也将成为加快培育发展新质生产力的重要引擎。
由AI催生的多样需求也让数据中心对服务器CPU有了更多的期待,首先在效率和TCO层面,目前AI技术架构内的很多设施都是非常昂贵的,并非所有企业都有足够的财力负担,因此,如何在数据中心的拓展中能够以更好的硬件或者更优的架构实现效率提升和成本的降低是至关重要的。
其次,在节能减排方面,自2020年中国明确提出2030年“碳达峰”与2060年“碳中和”目标后,“耗电大户”数据中心就成了节能降碳的重点目标,根据美国机构Uptime Institute的预测,到2025年,AI相关业务在全球数据中心用电量中的占比将从2%增加到10%;到2030年,智能计算的年耗电量将占全球发电总量的5%。因此,如何用更好、更绿色的方式管理数据中心,在得到AI便利性的同时也不会继续增加电力消耗成为了业界关注的方向。
在软件通用性方面,在过去的几十年里,很多云上的软件都是以X86架构为基础的,如今随着AI的火热,基于PyTorch的编程方式也逐渐成为主流,对开发者和应用者而言,他们也需要芯片层面的支持。
在安全和可靠性方面,与个人用户使用的PC相比,数据中心对设备的隐私性、安全性和可靠性的要求更加严苛,由于单个数据中心就拥有成百上千台服务器,且支撑着诸多企业的重点应用,对安全性和可靠性的要求要更高。
此外,随着大模型的广泛应用,也衍生出了对底层CPU内存带宽速度和延迟的要求,只有更高的吞吐才能让AI更好地满足及时响应的需求。
英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立表示,过去几年来,英特尔在数据中心客户中看到了不同的需求增长点,其中之一是AI的增长,这与时下AI的火热息息相关,而在传统的云上,微服务则成为了主要的需求方向,虽然微服务对性能的要求并不高,但对服务量的要求却十分严苛。例如即时聊天软件、移动运营商或者航空公司客服服务,经常会遇到短时间的高并发流量,如果这些服务需要用CPU来支持,那就需要不同的核心来同时满足不同的微服务。
而这正是今年的至强处理器产品有两个产品线的原因,今天在国内正式发布的至强6能效核产品(Sierra Forest)具备更高的能效,针对高密度和横向扩展工作负载进行了优化,如微服务、云原生负载或者简单的数据库处理等等,而尚未发布的至强6性能核产品(Granite Rapids)则具备更高的性能、内核密度、内存和I/O创新,同时也有更高的能耗,针对计算密集型和AI工作负载进行了优化,例如设计、大数据、AI推理以及游戏等等。
不过要说明的是,由于在架构设计方面,Sierra Forest和Granite Rapids是可以共享通用的I/O chiplet的,即共享一个底层平台,因此在部署时也会更加便利,只需要更换不同的CPU型号即可。
性能方面,虽然至强6能效核产品具备更多的核心数量,但并不意味着性能的降低,从英特尔公开的数据来看,至强6能效核产品在媒体处理、网络处理和微服务等方面都有着十分显著的性能提升,对云服务商和大型互联网公司来说,至强6能效核产品可以带来更好的性能与能效的平衡。
此外,在同样算力的前提下,与三四年前的产品相比,至强6能效核产品可以节省2/3的部署空间,可以有效助力企业达成节能降碳的目标。不但如此,英特尔也和浪潮等OEM厂商一起致力于推动散热和液冷方案的标准化,英特尔不但在数据中心的能耗有效性、先进的制冷技术和智能节能三个垂直领域构建了一个完备的解决方案矩阵,并在芯片、服务器、机架以及数据中心四个水平方向都积累了许多的解决方案和实践案例,而且随着“绿色数据中心技术框架2.0”的升级,也增加了材料和可循环设计模块,旨在将可持续理念深入贯穿至源头的原材料及设计中,通过可降解PCB、负责任材料计划及模块化服务器设计等,大幅降低数据中心整体生命周期能耗。
陈葆立表示,在早期的测试验证阶段,根据Ebay的测试结果,至强6能效核产品相比竞品有25%的性能核功耗比优势,而相比第三代至强则有90%的性能核功耗比优势。
在产品划分层面,今年发布的至强6包括6700和6900两个系列,其中6700系列就是对原来至强可扩展平台的延续,不仅拥有最大的灵活度,也能够运行非常广泛的业务种类,而6900系列则针对大规模数据中心的性能密度和TCO进行了优化,可以提供更高的计算密度和更优的成本,十分适用于高性能、高吞吐的业务场景。两个系列平台都提供了性能核和能效核的产品,以平台加核心种类2x2的矩阵,满足用户的多元化需求。
从参数上看,6700系列作为传统平台的延续,支持1路、2路、4路到8路的可扩展性,从核心数量上看,6700系列最多具备86个性能核,6900系列则为128个,从内存速度上看,至强6全系的内存速度均为6400MT/s,此外至强6平台还提供了MCR技术,可进一步将6700系列和6900系列的内存速度提升到8000MT/s和8800MT/s,在面对一些高带宽需求的任务时能够有更好的表现。
此外,配备6700E和6900E系列产品都提供了更多的PCIe和CXL接口以及两个CPU互连的UPI带宽,今天于中国市场发布的6700E提供了最多144个能效核,而未来发布的6900E则最多可提供288个能效核。
在微架构层面,由于性能核包含包括AVX-512、AMX这样的向量、矩阵运算单元,因此可以为AI和科学计算类业务提供更好的性能支持,此外,性能核还提供了512长度的乱序执行引擎,可以更好地优化编程中的软件指令。
能效核作为英特尔在服务器端引入的新核心,则针对一些功能进行了简化和裁剪,因此并不具备诸如AVX-512和AMX的功能,同时在L2缓存和L3容量方面也有所调整,与性能核相比,能效核的硅片面积更低,功耗也更少,因此可以在同样芯片面积或功耗的前提下,提供更多的核心数量。
与第五代至强可扩展处理器相比,至强6的设计理念和封装方式也有所变化,众所周知,第五代至强采用了英特尔EMIB技术将两个芯片组合为一个芯片,巧妙地突破了传统研磨尺寸对芯片尺寸的限制,使得单个处理器可以集成更复杂的逻辑功能,而至强6则是通过功能块对芯片进行了划分,如计算die、I/O die等,其中计算die对计算密度和核心逻辑密度要求较高,因此采用了最新的Intel 3制程工艺,与高速I/O相关但对密度要求不高的I/O die则采用了成熟的Intel 7工艺,这使得至强6在芯片封装和SOC构造方面都与第五代至强可扩展处理器有较大的不同。
产品构成方面,6700E包括了一个计算die和两个I/Odie,而6700P则分为XCC、HCC和LCC三档,每个档位分别代表不同核心数版本的芯片,但封装没有区别,根据核心数量的区别,客户可以选择不同的计算die的版本。
与6700E相比,6900E的I/O die的形状和数量是一致的,每个芯片都包括两个I/O die,但计算核心数量有所不同,6900P使用的是与6700P XCC相同的计算单元,但数量增加到了3片,因此从计算核心数量上看,6900P的核心数量相对6700P增加了50%,而6700E则配备了与6700E一样的计算单元,但数量增加到了两片,核心数量也提升到了288个。
从以上的介绍可以看出,至强6实际上整体更为模块化了,根据英特尔的说法,Fabric技术是实现模块化die互连的关键要素之一,即使是面对多个芯片时,也可以通过Fabric技术无缝地将它们连接成一个整体,这种设计不仅优化了数据传输效率,还极大地扩展了处理器的功能和性能,而芯片之间的桥接则是通过EMIB技术实现的,能够让die和die之间达到1TB/s的速度,实现带宽无损通信。
具体到计算die的结构层面,计算die可以大致分为包括L1缓存和L2缓存的核心部分、与缓存及内存访问相关的地址控制的CHA部分,用于L3缓存的LLC部分,横向及纵向的Mesh Fabric部分以及DDR/MCR内存控制器部分。在这样的架构设计之下,每个计算die内部的核心和缓存以及内存访问都在较小的范围中,因此可以达到比较低的访问延迟。
I/O die则通过Fabric和EMIB和计算die相连,此外在I/O die上还有多种IO接口,如PCIe、CXL、UPI等等,以及包括QAT、DSA在内的加速单元,以及如RDT这样的资源调度功能。
值得一提的是,至强6首次导入了CXL 2.0功能,因此为Type3设备引入了包括链路细分、QoS控制在内的更多增强功能。此外针对Type3设备用户在内存扩展方面的需求,英特尔还提供了异构交织和Flatmemory mode两种硬件管理方案,以从硬件层面实现内存的扩展。
根据英特尔给出的数据,与第五代至强可扩展处理器相比,至强6700E在整数吞吐性能、媒体编解码、网络防火墙等业务均有20%-40%的提升,在能效方面的提升则更加显著,可以有效助力企业提升机架部署密度,降低功耗和控制成本。
根据英特尔的规划,在接下来的第三季度到明年的一季度,至强6将有更多的产品发布,届时至强6的产品版图将会完全补全,为客户带来丰富的产品组合和更多的性能提升。