最新第42届全球超级计算机500强排行榜榜单,“天河二号”以比第二名美国的“泰坦”快近一倍的速度再度登上榜首。成为超级计算领域最激动中国人心的消息,之前在《再夺冠TOP500!探中国“天河二号”超算》中介绍“天河二号”继2010年11月“天河1A”之后第二次获得此项桂冠,标志着中国超级计算机的水平再一次跃上了新的高峰。
“天河二号”超级计算机
根据世界超级计算机TOP500榜单显示,天河二号的峰值速度(Rpeak)每秒54,902.4TFLOPS(万亿次浮点运算)、存储总容量12400万亿字节。据了解,天河二号运算1小时,相当于13亿人同时用计算器计算一千年,其存储总容量相当于可存储每册10万字的图书600亿册。
“天河二号”超级计算机落户于国家超级计算广州中心,系统共有16,000个运算节点,其中每个节点配置了两颗Ivy Bridge-EP平台Intel Xeon E5-2692 V2 CPU,运算加速器使用了最新基于MIC架构的Intel Xeon Phi 31S1P协处理器产品。节点间通过带宽为160Gbps的THExpress-2高速网络进行互联。
值得关注的一点,在11月份的TOP500榜单中,共有13套系统配备了英特尔至强融核协处理器,而采用至强处理器和至强融核协处理器的计算加速架构现在有一种全新“微异构架构”,这种架构具有多种类型计算力的硬件架构,但通用编程模型却可以予以支持,可以简化开发和优化过程。自“天河二号”发布后,“微异构架构”也正在逐步成为被高性能计算行业普遍认可的加速模式。
在网络设计上,天河二号采用了Arch互连机制,也就是THExpresss-2。Arch互连体系与两个Ivy Bridge-EP节点被安置在同一块电路板上。计算节点与至强Phi协处理器共享了机架空间--左侧空间归计算节点、右侧则容纳五块至强Phi协处理器,且二者都可以单独抽出。
除此之外,天河二号还在高速互连、新型层次式加速存储架构、容错设计与故障管理、综合化能效控制、高密度高精度结构工艺等方面取得了一系列创新和突破。
对天河二号有了简单了解,前面已经提到天河二号采用Intel Xeon E5-2692 V2 CPU,这是Intel最新发布的Ivy Bridge-EP产品家族中的一员,将核心数由原来Sandy Bridge-EP最高8核提高至拥有8核、10核和12核多种规格,在《英特尔至强E5 v2:新22nm制程带来的改变》详细剖析过Xeon E5 V2版领先的22纳米制程技术,与前一代产品相比,能效提高多达45%,最多可集成12个内核,能够快速运行多种计算密集型工作负载,最高可将性能提升50%。
至强E5 V2
而从相关厂商了解到,在行业优化型中的E5-2692 V2正是天河二号中使用的CPU,这款CPU主频为2.2Ghz,核数高达12个核心,对于这样一款E5-2692 V2处理器的性能表现,在实际的综合应用中又会带来哪些不一样的全新体验?带着这些疑问,与相关工程师一起对Intel E5-2692 V2 CPU进行评测。
为了评估Ivy Bridge平台所带来的性能变革,选了Intel Sandy Bridge架构E5-2670 CPU作为对比评测,同时也选择了另一款Ivy bridge处理器E5-2680 V2作为同平台对比测试(理论浮点计算能力略高于E5-2692 V2)。
在正式测试之前,一起看看这三款CPU的型号规格:
型号 | 架构 | 核数 | 主频 | 三级缓存 | TDP |
E5-2670 | SandyBridge | 8 | 2.6 | 20M | 115W |
E5-2680V2 | Ivy Bridge | 10 | 2.8 | 25M | 115W |
E5-2692V2 | Ivy Bridge | 12 | 2.2 | 30M | 115W |
通过参数可以看出,这三款处理器在功耗上是一样的,在同样的功耗下选择这三款处理器做对比测试。
CPU-Z是非常普遍的一款CPU检测软件,是检测CPU使用程度最高的一款软件。它支持的CPU种类相当全面,软件的启动速度及检测速度都很快。另外,它还能检测主板和内存的相关信息,其中有常用的内存通道检测功能。因此先用CPU-Z软件对这三款CPU进行了检测。
本次测试的硬件平台是借用的浪潮两台NF5280 M3服务器,该机型对上述三款处理器都可以支持。本次评测部分将会分为基准测试、应用类性能测试两大部分。测试的三个配置除了CPU之外其余硬件均保持一致。主要测试E5-2692 V2、E5-2670、E5-2680 V2的性能对比,重点验证Ivy Bridge平台带来的性能变革。
在测试状态下,两个平台均会以主板的Auto状态中进行成绩测定,节能选项和睿频加速功能将默认开启。
测试平台 | 2台NF5280M3 | |
硬件平台: | CPU | 2*Intel(R) Xeon(R) CPU E5-2692v2@2.20GHz,12核 |
单CPU双精度浮点计算能力为211.2Gflops | ||
2*Intel(R) Xeon(R) CPU E5-2680v2@2.80GHz,10核 | ||
单CPU双精度浮点计算能力为224Gflops | ||
2*Intel(R) Xeon(R) CPU E5-2670@2.60GHz,8核 | ||
单CPU双精度处理能力为166.4Gflops | ||
内存 | 8 GB *16 DDR3 1600MHz | |
硬盘 | 2*300G SAS | |
操作系统: | RedHatEnterprise Linux6.4 x86_64 | |
编译器 | Intel Composer_XE_2013.3.163 | |
MPI | Intel MPI 4.1.0.024 | |
互联网络 | Infiniband |
一、基准测试数据对比
在基准性能测试环节中,我们使用Linpack以及Stream来测试平台的计算性能。
Linpack测试结果:
CPU | Rmax(Gflops) | Rpeak(Gflops) | Efficiency |
Intel E5-2692V2 | 445.98 | 422.4 | 105.58% |
Intel E5-2670 | 345.513 | 332.8 | 103.82% |
Intel E5-2680V2 | 441.728 | 448 | 98.60% |
通过Linpack测试数据可以看出,双路E5-2692 V2平台的优势非常明显,实测性能达到445.980GFlops,E5-2670实测性能却只有345.513 GFlops,在Linapck性能上提升了29%。
同时从测试结果看,虽然E5-2680 V2在理论浮点计算能力(Rpeak)要高于E5-2692V2,但是E5-2692 V2的实际效率高出了7%,E5-2692 V2的实际Linpack结果也要略高于E5-2680V2。
Stream测试结果(内存频率1600Mhz):
CPU | Copy | Scale | Add | Triad |
Intel E5-2692V2 | 79999.518 | 77739.2296 | 84206.9908 | 82779.8252 |
Intel E5-2670 | 74715.1939 | 74182.4228 | 76914.5463 | 75826.8264 |
Intel E5-2680V2 | 78652.567 | 78305.6115 | 81014.3518 | 80514.1412 |
通过Stream测试数据可以看出,E5-2692 V2在内存Copy、Scale、Add、Triad性能上比E5-2670均高出5%-9%。
虽然从参数上看,E5-2680 V2和E5-2692 V2在内存通道、支持的内存频率方面都是一样的,但是在Stream测试结果来看,E5-2692 V2在内存Copy、Add、Triad都要高于E5-2680 V2。
HPC应用数据对比
1、流体力学典型应用软件FLUNT测试对比
测试算例:
本次对比测试采用Flunt软件应用卡车车体外流测试算例,三维网格数为1400万,使用DES湍流模型,基于压力的NS方程求解器(pbns),稳定迭代100步。软件为Flunt 14.0版本。
测试数据:
Flunt算例 CPU对比测试结果 | |||||
CPU | Nodes | Cores | GFlops | Wall time (s) | Speed Up |
E5-2692v2 | 1 | 24 | 422.4 | 449.36 | 1 |
(2.2GHz,12核) | 2 | 48 | 844.8 | 216.26 | 2.08 |
E5-2680v2(2.8GHz,10核) | 1 | 20 | 448 | 473.15 | 1 |
2 | 40 | 896 | 262.78 | 1.8 | |
E5-2670 | 1 | 16 | 332.8 | 523.98 | 1 |
(2.6GHz,8核) | 2 | 32 | 665.6 | 285.31 | 1.84 |
由表可看出:在单节点下,E5-2692 V2性能比E5-2670提高16.6%;E5-2692 V2性能比E5-2680 V2提高5.3%。在双节点下,E5-2692 V2性能比E5-2670提高31.9%;E5-2692 V2性能比E5-2680 V2提升21.5%.
2、气象学典型应用软件WRF测试
测试算例:
本次测试采用气象学典型应用WRF测试算例,预报时效48小时,四层区域嵌套,每三小时输出WRFOUT文件。软件版本采用WRFV3.4.1
测试数据:
WRF模式 CPU对比测试结果 | |||||
CPU | Nodes | Cores | GFlops | Wall time (s) | Speed Up |
E5-2692v2 | 1 | 24 | 422.4 | 23684 | 1 |
(2.2GHz,12核) | 2 | 48 | 844.8 | 12431 | 1.91 |
E5-2680v2 | 1 | 20 | 448 | 24237 | 1 |
(2.8GHz,10核) | 2 | 40 | 896 | 13260 | 1.83 |
E5-2670 | 1 | 16 | 332.8 | 30339 | 1 |
(2.6GHz,8核) | 2 | 32 | 665.6 | 16224 | 1.87 |
由表所示可看出:在单节点下,E5-2692V2性能比E5-2670提高28.1%;E5-2692V2性能比E5-2680V2提升2.3%。在两节点下,E5-2692V2性能比E5-2670提高30.5%。E5-2692V2性能比E5-2680V2提高6.7%.
通过对Ivy Bridge-EP E5-2692 V2、E5-2680 V2以及E5-2670在基准测试、行业应用软件测试等多种性能比较测试,可以看出E5-2692 V2均有非常良好的表现。同时由于E5-2692 V2是针对与高性能计算专用的处理器,所以针对高性能计算应用做了很多内部优化,或许正是“天河二号”选择这款CPU的原因。