热点:

    跨越高性能计算的藩篱 英特尔引领HPC与AI融合创新

      [  中关村在线 原创  ]   作者:徐鹏

          “数据正以令人难以想象的速度从四面八方向我们涌来。这些数据或许来自汽车,来自遥远的火星,或是这两点间无穷的宇宙。随着与人工智能的融合,高性能计算正在快速地演进。通过云端和其他解决方案,高性能计算系统正在为更多用户和案例所用,并得到迅速普及。如今,高性能计算已经无处不在——每天,新的用户都在通过创造性的方式使用高性能计算系统,以应对越来越多的高性能计算和人工智能挑战。”英特尔副总裁兼高性能计算部总经理Trish Damkroger表示,“在英特尔,我们正在通过多种不同的路径来加速计算。我们的产品组合涵盖通用计算、专用加速、独特的持久内存和E级存储、高性能互连和创新安全功能。”

    跨越高性能计算的藩篱 英特尔引领HPC与AI融合创新
    英特尔副总裁兼高性能计算部总经理Trish Damkroger

          在2021年国际超算大会(ISC)上,英特尔宣布了用于高性能计算与人工智能领域的至强可扩展处理器的最新进展,以及用于一系列高性能计算用例的内存、软件、E级存储和网络技术方面的创新。可以看到,随着数据的指数级增长和工作负载呈现多元化,用户对于性能的追求较以往更加迫切,而业务场景的愈发复杂意味着单一领域的性能提升并不能满足全部需求,对高性能计算来说更是如此。因此,需要在CPU速度、内存带宽、互联能力、I/O等方面均有所建树。

          高尔夫运动器材制造商利用高性能计算设计具有更好性能的球杆;铁路公司利用可靠的天气预报系统避免火车脱轨事故;药剂师利用机器学习识别药物中的有害成分;能源类公司通过对电厂机械进行全生命周期的模拟,能够在控制成本的情况下提升运行和维护体验……类型的案例不胜枚举。无论是科学研究还是工程模拟,密集型计算越来越多的出现在各行各业的HPC应用中,高带宽、低延迟成为必备要素。与此同时,越来越多的用户也开始关注HPC的功耗问题,像英特尔Speed Select Technology就可以提供更加精细化的CPU性能控制,在确保每内核性能的同时,为不同内核组的不同配置阶段对应各自的内核数量、基础频率、TDP等参数,并且可以将3个CPU组合,通过“单个CPU”满足多样化的业务需求。

          智能时代的超算基石

          在Trish Damkroger看来,多数人在通用HPC中心想要的是“平衡的系统”,一般来说,如果核心数过多,就会耗尽内存和带宽,反之亦然。因此,客户需要拥有恰好数量的核心数和足够的带宽,以便能够将所有数据输入到这些核心中。通过将高带宽内存(HBM)集成到下一代英特尔至强可扩展处理器(代号“Sapphire Rapids”)中,可以显著提高处理器的可用内存带宽,使得运行HPC与AI应用等内存带宽密集型工作负载的处理器性能得到大幅提升,可在仅使用高带宽内存或结合DDR5的情况下处理工作负载,适用于建模与模拟(例如计算流体动力学、气候及天气预报、量子色动力学等)、人工智能(例如深度学习训练和推理)、分析(例如大数据分析)、内存数据库及存储等场景。目前,集成HBM的Sapphire Rapids处理器已在美国能源部阿贡国家实验室的Aurora超级计算机、洛斯阿拉莫斯国家实验室的Crossroads超级计算机上成功部署。

          今年早些时候,英特尔凭借新推出的第三代英特尔至强可扩展处理器扩大了其在高性能计算的领先地位。得益于对核心架构的改进,第三代英特尔至强可扩展处理器每个时钟的指令条数实现20%的跃升,高速缓存量也有增长,每个处理器可提供至多40个核心,每个核心可使用至多8条内存通道,系统内存容量至多可达到6TB。相较于前代产品,第三代英特尔至强可扩展处理器能够为广泛的高性能计算工作负载提供53%的性能提升,包括生命科学、金融服务和制造等领域的应用。

          在英特尔至强可扩展8358处理器和AMD EPYC 7543处理器的对比中,至强可扩展处理器的NAMD性能表现胜出62%,LAMMPS性能表现高出57%,RELION性能表现胜出68%,二项式选项性能表现胜出37%。在蒙特卡罗(Monte Carlo)模拟上,全新的英特尔至强可扩展处理器上的运行速度比在AMD霄龙处理器上快两倍,这将使金融类公司仅通过一半时间就能实现了定价结果。在关键AI工作负载方面,相较于AMD EPYC 7763处理器,英特尔至强可扩展8380处理器在20个常见基准测试中均能提供50%的性能提升。

    跨越高性能计算的藩篱 英特尔引领HPC与AI融合创新
    第三代英特尔至强可扩展处理器与AMD EPYC Milan处理器对比

          在Sapphire Rapids平台上,搭配了PCI express 5.0的更高I/O带宽,以及对Compute Express Link (CXL) 1.1的支持,从而在跨计算、网络和存储的情况下支持先进用例。同时,Sapphire Rapids还借助全新内置人工智能加速引擎——英特尔高级矩阵扩展 (AMX) ,针对HPC和AI工作负载进行了优化,英特尔AMX旨在显着提升深度学习推理和训练的性能。目前,已经决定采用了Sapphire Rapids的客户包括CINECA、莱布尼茨超级计算中心(LRZ)和阿贡国家实验室,以及洛斯阿拉莫斯国家实验室和桑迪亚国家实验室的Crossroads系统团队。目前,下一代至强平台正在向全球客户出样,Sapphire Rapids计划于今年年底左右投产,在2022年上半年投产。

          多维赋能HPC创新

          “英特尔在Sapphire Rapids、Sapphire Rapids+HBM,以及Xe-HPC和Ponte Vecchio等方面拥有非常有竞争力的产品路线图。”Trish Damkroger认为,英特尔的优势在于广泛的软件生态系统,“在转向异构的过程中,oneAPI具有颠覆性的意义——这是一种简单的跨架构、跨供应商的异构编程模型,该模型开放、统一且基于标准。除此之外,我们还引入了IPU和其他计算。”oneAPI框架中包含了FORTRAN编译器、C++编译器、V-Tune、MKL-DNN库等软件和功能,并且在代码层面进行优化,包括开源代码、ISB代码等对应用程序的适配,有时客户甚至只需更改一行代码,就能在AI负载上获得更高的性能。

          通过使用oneAPI工具包针对英特尔架构优化的框架和库来加速端到端机器学习和数据分析管道,在美国人口普查数据集上进行测试,相较于传统的开箱即用软件,英特尔Modin与Scikit-Learn优化的组合带来了10倍的速度提升。如果对比使用64核Milan处理器处理此任务(33秒),第三代至强可扩展处理器在性能上高出16%,仅需27秒即可完成。在适用范围更广的Kaggle调查中,英特尔选择了20个流行的机器和深度学习模型,测试结果显示各项性能指标与竞争对手的64核部分相比,第三代至强可扩展处理器(40核)在几何均数方面的性能提升了1.5倍。

    跨越高性能计算的藩篱 英特尔引领HPC与AI融合创新
    领先的AI性能

    跨越高性能计算的藩篱 英特尔引领HPC与AI融合创新
    Ice Lake的客户与合作伙伴

          为了进一步优化高性能计算和人工智能工作负载,英特尔在今年早些时候启动了基于Xe架构的HPC GPU(代号“Ponte Vecchio”), Ponte Vecchio是用于E级存储和人工智能方面的XPU,集成了超过1000亿个晶体管,利用英特尔的Foveros 3D封装技术对多个IP进行封装,其中包括HBM内存和其它IP。这款GPU的架构包含计算、内存和Fabric,可以满足Aurora等先进超级计算机不断演进的算力需求。Ponte Vecchio会支持OCP加速器模块(OAM)规格及子系统,提供了高性能计算应用所需的横向与纵向扩展功能,并且支持Xe层面的GPU间连接,实现了更低的延迟。

          ISC 2021期间,英特尔宣布了其全新的以太网高性能网络 (HPN) 解决方案,该解决方案通过使用标准的英特尔以太网800系列网络适配器和控制器、基于英特尔Tofino P4可编程以太网交换机ASIC和英特尔以太网结构套件软件的交换机,为 HPC领域的小型集群扩展以太网技术功能,HPN能够对以太网提供的易用性进行充分利用,以更低的成本实现与InfiniBand相当的应用程序性能。

          除此之外,英特尔正在引入对 DAOS(分布式异步对象存储)的商业支持。DAOS是一种开源软件定义对象存储,旨在优化跨英特尔高性能计算架构的数据交换。同时,DAOS也是阿贡国家实验室此前宣布的英特尔E级存储堆栈的基础,被英特尔的LRZ和JINR(联合核研究所)等客户广泛采用。DAOS支持现已作为L3的支持产品对英特尔合作伙伴开放,后者能够将完整的交钥匙存储解决方案与服务相结合,持续赋能产业下游。除了英特尔自身的数据中心构建模块,这一新商业支持计划的早期合作伙伴还包括慧与、联想、美超微、Brightskies、Croit、Nettrix、广达和RSC集团。DAOS的2.0版本会在9月发布,预计今年晚些时候会部署到阿贡国家实验室的Aurora系统。

          专为客户需求而设计

          “我们发现很多国家政府正在对超算进行投资,因为他们知道拥有这些专业知识和先进的超级计算机将会对经济发展十分有利。我认为,最重要的是去深入了解即将在这些机器上运行的工作负载,并针对特定用途进行设计。”Trish Damkroger谈到,“我们会花费大量时间与客户分析他们的工作负载,让客户的每一分钱都花在刀刃上。一个例子是阿贡国家实验室,他们有一个相当独特的设计,我们正在研究他们对建模和模拟的结合,以及他们对运行AI和高性能数据分析的需求和愿望。因此,他们的设计配备了两个Sapphire Rapids和六个Ponte Vecchio,这是一个1:3的特殊设计,因为通常情况下都是1:2或1:4的。”

          近期,德国莱布尼茨计算中心(LRZ)宣布计划扩展SuperMUC-NG,以满足物理学、医药、人文科学等多个领域的新需求,该系统是高斯超级计算中心 (GCS) 的一部分。SuperMUC-NG的第二阶段将集成和推进人AI计算方法,这意味着需要更强大的算力,也要支持高性能存储领域多种CPU架构和创新。例如,使用者会在地球观测或卫星气候数据、匿名医学图像和健康记录或数据人口统计中使用自动图像、语音或模式识别,这些神经网络和所需的功能越复杂,对计算和快速内存性能的要求就越高。

          通过使用内置针对全新HPC和AI工作负载加速功能的第三代英特尔至强可扩展处理器,配合Ponte Vecchio GPU,LRZ搭建了混合环境,并且为了尽可能快地访问数据,其还将在搭载第三代英特尔至强可扩展处理器和傲腾持久内存的系统上,使用英特尔DAOS来实现高速、高带宽、低时延的高IPOS存储,由此来推进生物医药、天体物理学等领域的科研发展。

          对于希望利用100%基于AI的处理器来推动深度学习极限的客户来说,英特尔旗下公司Habana的Habana Gaudi和Goya处理器提供高效率、可扩展性和可移植性,这也是圣地亚哥超算中心Voyager项目选择其的原因。Voyager会配备336个Habana Gaudi处理器,这些处理器专为AI训练工作负载而构建,它还将使用16个为推理而设计的Habana Goya芯片和英特尔至强可扩展处理器。

        圣地亚哥超算中心副主任兼Voyager的设计与部署项目经理Shawn Strande称:“Gaudi和Goya为高性能、高效率和可扩展的AI数据中心进行了全新的设计。结合第三代英特尔至强可扩展处理器,我们将拥有全球最强大超级计算机之一。我们很高兴Voyager在今年秋季投入运营后支持天文学、气候学、化学、粒子物理学等领域的广泛AI科研项目。我们迫不及待地让科研人员在搭载英特尔和Habana的AI计算能力的Voyager上释放他们的创造力。”

    跨越高性能计算的藩篱 英特尔引领HPC与AI融合创新
    英特尔至强可扩展处理器——唯一内置人工智能加速的x86数据中心CPU

          结束语

          与AI的融合是HPC行业向前迈进的重要节点,为供应商和客户提供了全新的发展空间和机遇,对于英特尔而言更是如此,其也顺势打造了针对高性能计算和人工智能融合进行优化的数据中心CPU——至强可扩展处理器,并以此为算力基础构建了丰富的软硬件组合。正如Trish Damkroger所说:“今天,对高性能计算的性能优化要在各个关键方面同时进行——因此,英特尔开发了无与伦比的高性能计算产品组合,能够轻松为各类使用场景提供适用的平台,帮助客户成就未来、成就精彩。”

    本文属于原创文章,如若转载,请注明来源:跨越高性能计算的藩篱 英特尔引领HPC与AI融合创新https://server.zol.com.cn/771/7717990.html

    server.zol.com.cn true https://server.zol.com.cn/771/7717990.html report 9448       “数据正以令人难以想象的速度从四面八方向我们涌来。这些数据或许来自汽车,来自遥远的火星,或是这两点间无穷的宇宙。随着与人工智能的融合,高性能计算正在快速地演进。通过云端和其他解决方案,高性能计算系统正在为更多用户和案例所用,并得到...
    • 猜你喜欢
    • 最新
    • 精选
    • 相关
    0

    下载ZOL APP
    秒看最新热品

    内容纠错