一、测试背景:
自2009年浪潮推出了国内首款万亿次桌面超级计算机--“倚天”以来,兼具低成本、高性能特点的“倚天”受到了广大高性能用户的普遍青睐。近日,浪潮 “倚天”宝剑再度出鞘,推出搭载了NVIDIA Tesla最新Fermi架构20系列GPU的升级版桌面超级计算机--NF5588。该产品采用目前业界最先进的双路四核 CPU+GPU异构计算架构,是一款最高计算能力可达4万亿次每秒的高性能超级计算机,同时也是一款高端工作站产品。目前,NF5588已经成功应用于国防科技大学、西交大电信学院、井冈山大学等全国各大知名科研研究单位。
本测试报告将利用分子动力学经典软件NAMD及快速傅里叶变换FFT就这款产品进行全方位性能实测,同时针对上一代倚天桌面超算进行性能对比测试。
浪潮“倚天”NF5588
二、测试方案1:
选择典型高性能应用NAMD软件及Nanopore算例来进行实测。NAMD是分子动力学领域最为经典及最早支持CUDA架构计算的软件之一,它基于Charm++并行支持库,实现了动态负载平衡,在高端硬件平台上可以保持较高并行效率直到数千个处理器规模。Nanopore算例是通过分子动力学的方法,利用NAMD软件进行模拟计算,对硅纳米孔柱阵列的排列结构进行研究。
本次对Nanopore算例进行10000个step的计算来进行计算时间对比。测试软件是官网下载的NAMD_2.7b3_Linux-x86_64-CUDA.tar.tar与NAMD_2.7b2_Linux-x86_64-CUDA.tar.tar两个不同版本。运行的命令为:./charmrun ++local +p8 ./namd2 +idlepoll +devices 0,2 /root/apoa1/apoa1.namd,其中+p参数指的是系统CPU运行的核数,+devices参数指的是系统GPU运行的设备号码,此设备号码可由CUDA SDK中的devicequery程序运行得来。
测试方案1对比的是NF5588分别搭载Tesla C2050与Tesla C1060时的性能对比情况,对应Tesla C2050 GPU安装了cuda3.1版本驱动,Tesla C1060 GPU安装了cuda2.3版本及cuda3.1版本驱动,都分别对同样的算例进行了测试,测试平台配置信息及测试结果分别如下。
硬件 |
机型 |
Inspur NF5588 |
CPU |
2*Intel Xeon E5520 @ 2.27GHz | |
GPU |
2*Nvidia Tesla C1060 | |
2* Nvidia Tesla C2050 | ||
4* | ||
500GB SATA | ||
系统 |
OS |
Red Hat Enterprise Linux Server release 5.4 |
驱动 |
CUDA |
NVIDIA-Linux-x86_64-190.53-pkg2.run (cuda2.3) |
devdriver_3.1_linux_64_256.40.run (cuda3.1) |
NAMD版本 |
CUDA驱动版本 |
测试时间(秒) |
| |
NAMD_2.7b3_Linux -x86_64-CUDA |
2.3-drv |
1*C1060 |
2*C1060 |
3*C1060 |
277.630463 |
156.488815 |
128.077164 | ||
3.1-drv |
1*C1060 |
2*C1060 |
3*C1060 | |
407.601776 |
221.654938 |
176.371780 | ||
1*C2050 |
2*C2050 |
| ||
205.011581 |
129.603073 | |||
NAMD_2.7b2_Linux -x86_64-CUDA |
2.3-drv |
1*C1060 |
2*C1060 |
3*C1060 |
394.606384 |
216.176727 |
174.694672 | ||
3.1-drv |
1*C1060 |
2*C1060 |
3*C1060 | |
534.408508 |
287.990723 |
233.471939 | ||
1*C2050 |
2*C2050 |
| ||
357.576599 |
210.960190 |
上表中的测试时间均为记录系统运行算例的Wall Clock Time,由上表的数据分析可得出以下结论: