热点:

    TOP500公布:Arm系统登顶 NVIDIA成大赢家

      [  中关村在线 原创  ]   作者:徐鹏

          每年ISC、SC公布的TOP500榜单可谓是HPC领域最受关注的事件之一,而在最新公布的TOP500榜单中,有两个看点颇为引人关注:其一是搭载Arm处理器的Fugaku系统首次登顶,该系统部署在日本的理化学研究所计算科学中心(R-CCS),Linpack(HPL)值达到415.5 petaflops,比第二名Summit系统高出2.8倍,以单精度或进一步降低精度运算,(通常在机器学习和AI应用中使用),Fugaku的最高性能超过1 exaflops。其二则是TOP10的HPC中,有8台系统采用了NVIDIA GPU、InfiniBand网络技术,或同时采用了两种技术,其中包括美国、欧洲和中国领跑的HPC系统。

    TOP500公布:Arm系统登顶 NVIDIA成大赢家
    Fugaku首次登顶TOP500(图片来自TOP500)

          尽管Arm系统夺得了此次TOP500的桂冠,但整体来看TOP500依然是x86架构的天下,后者占据了481套系统,其中搭载英特尔处理器的系统为469套,相比之下Arm架构的系统为4套。榜单中,中国部署的HPC数量继续位列全球第一,226台的规模占总体份额超过45%,其中由联想制造的超算入围180台,联想、曙光、浪潮共交付了312台,占TOP500份额超过62%。

          此外,在TOP500中有333套采用了NVIDIA(和Mellanox)的技术,近74%的全新InfiniBand系统采用了NVIDIA Mellanox HDR 200G InfiniBand,自2019年11月以来,榜单上使用HDR InfiniBand的TOP500系统数量几乎增加了一倍。此次,共有141台HPC使用了InfiniBand,自2019年6月以来增长了12%。

          在TOP500中,有305套系统使用了NVIDIA Mellanox InfiniBand和Ethernet网络,包括所有141套InfiniBand系统和164套使用Ethernet的系统。能效方面,使用NVIDIA GPU的系统的能效(以gigaflops/watt为单位)平均高出2.8倍。以Selene为例,该系统在Linpack基准测试中以27.5 petaflops的性能表现、20.5 gigaflops/watt的功耗表现,位列TOP500第七位,Green500第二位。

    TOP500公布:Arm系统登顶 NVIDIA成大赢家
    TOP10榜单(图片来自TOP500)

          Selene是排名前100系统中唯一突破20 gigaflops/watt能效大关的系统,也是全球性能排名第二的工业超级计算机。相较未使用NVIDIA GPU的其它TOP500系统的平均能效表现,Selene的能效高出6.8倍,这得益于NVIDIA A100 GPU中的第三代Tensor Core核心,该核心可以为传统的64位数学模拟及精度较低的AI工作提供加速。

          事实上,NVIDIA在TOP500的高光表现与AI应用的大势所趋密不可分。一直以来,全球各国的超算研发都是由国家提供支持,用途几乎均为气象、能源、医疗、工业等科研领域的研究,随着数据科学、深度学习等技术深入到这些领域,AI所需的算力资源与日俱增。以抗击新冠病毒为例,在基因组学领域,Oxford Nanopore Technologies使用NVIDIA GPU在7小时内完成病毒基因组测序;在治疗领域,NVIDIA与美国国立卫生研究院合作构建了一个AI系统,可根据肺部扫描对COVID-19感染进行准确分类,制定有效的治疗方案;在新药研究领域,橡树岭国家实验室在GPU加速的Summit超算上运行Scripps研究所的AutoDock ,仅需12小时即可对十亿种潜在药物组合进行筛选。

          类似的案例还有很多,NVIDIA共为700多种HPC应用提供了提速,背后的支持既包括硬件,也包括软件、算法、框架。例如仅耗时四周构建完成的Selene,采用了NVIDIA的模块化参照架构,也就是基于NVIDIA DGX A100系统的DGX SuperPOD。借助这一参考设计,任何企业机构都可以快速搭建属于自己的世界级计算集群。演示示例中,4名操作人员仅需不到1个小时,就能组装起一套由20台系统组成的DGX A100集群,创建出一套性能达到2-petaflops的系统。

          据了解,包括联想、戴尔、浪潮、HPE、富士通、思科、华硕在内的多家供应商将发布超过50款内置A100的服务器,预计今年夏天将有30款系统上市,到年底会再有20多款系统上市。A100是首款基于NVIDIA Ampere架构的GPU,其性能比前代产品提高20倍。同时,NVIDIA还为A100提供了一系列软件支持,包括CUDA 11、50多个CUDA-X库的新版本、多模式对话式AI服务框架NVIDIA Jarvis、深度推荐应用框架NVIDIA Merlin、RAPIDS开源数据科学软件库套件、NVIDIA HPC SDK,内含编译器、库和软件工具,可以大幅提升开发者的工作效率,以及HPC应用的性能和可移植性。

          NVIDIA在16台NVIDIA DGX A100系统上运行的RAPIDS开源数据科学软件库套件,仅用时14.5分钟就完成了标准大数据分析基准测试(TPCx-BB),而在CPU系统上运行的记录是4.7小时。该DGX A100集群系统配置了128块NVIDIA A100 GPU,并配有NVIDIA Mellanox网络功能。为了运行该基准测试,NVIDIA采用RAPIDS用于数据处理和机器学习、Dask用于水平扩展、UCX开源库进行超快速通信,这些软件工具都在DGX A100上得到了增强。

          在TOP500中,其中一台位于美国阿贡国家实验室,该机构的研究者将使用24台NVIDIA DGX A100系统组成的集群对数十亿种药物进行扫描,以寻找COVID-19的治疗方法。此外,美国国家能源研究科学计算中心正在将AI应用于几个针对Perlmutter的项目中,Perlmutter是该中心的pre-exascale系统,拥有6200颗A100 GPU。为了加快新冠病毒蛋白的分析速度,慕尼黑的研究者则依靠Summit中的6000颗GPU训练自然语言模型。

          通过将NVIDIA A100 Tensor Core GPU和NVIDIA Mellanox网络功能整合到一套易于扩展的完整系统中,NVIDIA DGX A100系统可以高效支持单一软件定义平台上的分析、AI训练和推理。由此扩展到集群系统上,即是在科学计算应用上加速了HPC与AI的融合进程。借助软硬结合的解决方案,开发者能够快速构建并加速HPC、基因组学、5G、数据科学、机器人学等领域的应用。

    本文属于原创文章,如若转载,请注明来源:TOP500公布:Arm系统登顶 NVIDIA成大赢家http://server.zol.com.cn/747/7471204.html

    server.zol.com.cn true http://server.zol.com.cn/747/7471204.html report 4631       每年ISC、SC公布的TOP500榜单可谓是HPC领域最受关注的事件之一,而在最新公布的TOP500榜单中,有两个看点颇为引人关注:其一是搭载Arm处理器的Fugaku系统首次登顶,该系统部署在日本的理化学研究所计算科学中心(R-CCS),Linpack(HPL)值达到415...
    • 猜你喜欢
    • 最新
    • 精选
    • 相关
    0

    下载ZOL APP
    秒看最新热品