中山大学计算科学科研团队吸引了国内外一批知名学者组成计算科学科研团队,并成功入选广东省首批创新科研团队。该团队是一支具有国际一流水平的创新科研团队,其成员在微分方程数值解法、积分方程快速算法、随机问题计算方法、图像处理、高维数据处理和机器学习理论等领域做出了国际一流的研究成果。目前,信息产业面临“多核革命”,高性能计算从单核到多核的硬件发展相对成熟,但相关的算法、软件研发尚处于起步阶段。这为广东信息产业带来了抢占多核并行计算及软件的制高点的机遇。
应用需求
团队以建立多核计算机上的高效能计算方法为研究方向,具体研究内容广泛,包括:
1、高性能与多核并行计算;
2、非平稳信号自适应数据分析及其在医学信号处理中的应用;
3、计算机断层重建新算法及其在医疗图像中的应用;
4、企业评估和风险预警的统计学习方法;
5、油气地震勘探巨量复杂数据处理的偏微分方程方法;
6、高维数据的超快速高精度傅立叶变换;
7、基于积分方程模型的高精度快速图像处理方法。
中山大学GPU集群的特色是:自编程序、用户众多、应用广泛,需求各不相同。
解决方案
在上面所列的各种应用中,线性方程组的求解占据得要位置。为此,曙光公司针对稠密、稀疏线性方程作GPU并行化测试。稠密线性方程组在nVidia Tesla C2050 GPU下加速3倍。
对稀疏线性方程组,与intel Xeon X5650 CPU相比, nVidia Tesla C2050 GPU能获得5~10倍的加速。
根据测试结果,决定选用nVidia Tesla C2050 GPU.
为了满足多用户多任务多应用的需求,并考虑到后续扩展性,曙光为该GPU集群作了特殊配置,有如下特色。
采用曙光高密度GPU计算节点,二百余颗nVidia Tesla C2050 GPU提供超过110Tflops的计算能力。
曙光公司自主研发的Parastor并行文件系统,两个IO节点,对计算节点提供80G的IO带宽,可大大提升系统的IO性能。 Parastor优势还包括: 基于对象存储,使存储更具智能化;对单个目录下的元数据操作进行优化;数据安全性,可选支持多副本方式,充分保护数据安全性;极佳的可扩展性。基于对象存储的体系结构使系统可以支持几万个客户节点,存储容量支持Petabytes级别;由于Parastor已经部署到多个不同规模大小的实际机群系统中,可满足商业和安全应用对正常运行时间的要求;支持多种主流的网络连接,包括TCP/IP,Myrinet,Infiniband,Qrandrics等;和曙光集群管理软件结合,对文件系统部署、文件系统管理、文件系统快速恢复提供良好支持。
三套网络,专网专用。高速计算网采用Inifiband 40Gbps全互联高速网络,用于并行计算时的数据交换和计算通讯;数据网亦称接入网,采用高性能千兆以太网,主要用于用户接入、IO读写等,同时,数据网又作为高速计算网的备份;管理网采用千兆以太网,用于系统管理控制、系统监控、作业的递交、作业监控等监控管理方面的数据通讯,同时,管理网又作为数据网的备份。
众多并行基础软件。集群应用范围很广,因此需要很多基础软件。操作系统:业界知名的Suse 64位企业版Linux操作系统,性能卓越,安全可靠。MPICH和LAM-MPI:最稳定、适用性最好MPI实现,用于跨结点并行程序的开发。并行虚拟机PVM:用于异构系统下的并行程序开发。编译环境:提供GNU C/C++编译器、GNU Fortran77/90/95等各种编译器、Java、Python、PERL开发环境,满足多种程序开发需求;特别提供用于GPU程序开发的驱动、cudatoolkit和gpucomputing SDK。
数学库,程序优化的重要手段。曙光提供AMD核心数学库ACML、基本线性代数库BLAS、针对特定平台性能调优的高性能BLAS库GOTO和ATLAS、线性代数计算子程序包LAPACK、可扩展线性代数库ScaLAPACK、并行可扩展科学计算工具箱PETSc、傅里叶变换数学库FFTW。
高性能计算平台管理软件。曙光自主研发的集群管理软件GridView支持GPU计算监控,用户可随时了解GPU软硬件信息,如GPU的型号、软件版本、主频、风扇转速和温度变化等。
中山大学计算科学科研团队与广东产业结合,提高广东IT产品创新力和产业竞争力,为政府与企业提供计算支持与咨询服务,将“广东制造”提升为“广东创造”。产业化内容包括:具有自主知识产权的多核并行编程环境;多核并行应用软件,如医学图像处理、医疗心电信号处理、企业风险预警、油气勘探数值计算与数据处理;软件固化成IT产品。曙光GPU集群将为研究开发、成果产业化提供可靠保障。