日前,北京大学选择浪潮集团建设超级计算系统作为大气模拟领域科研工作的高性能计算平台。
随着社会经济的发展,政府、社会和公众对气象预报和服务提出了更高的要求,特别是一些特殊气象保障任务需要预报员提供定点、定时、定量的精细气象预报和服务。而对于现代天气预报而言,为确保其实施的实效性和运行的稳定性,必然要求其建立在数值预报基础之上,但数值模式普遍具有计算规模巨大、高精度等特点,于是高性能计算机便成为了现代气象研究的中流砥柱。数值天气预报水平的高低已成为衡量世界各国气象事业现代化程度的重要标志。
中国是一个幅员辽阔的国家,在气候上呈现多层次、多样性、多变性等特点,尤其是近几年洪涝、干旱等自然灾害比较严重,及时、准确的天气预报逐步受到重视,建设更高效率的高性能计算机平台不仅可以增强对天气预测的准确度,也为人工影响天气提供了基础的支撑。北京大学拥有中国唯一的大气科学一级重点学科,近年来承担多项国家科研项目,包括多项国家重点基础研究发展规划(“973”计划)项目、国家高新技术研究发展计划(“863”计划)项目、国家重大科学研究计划项目等,为更好推进这一专业领域的科研工作,培养更多专业人才,他们希望构建符合自身地球气候科研教学需求的高性能计算平台。
在该平台建设中,主要面临如下的挑战:
1、计算量巨大
基于气候研究的专业软件,如MM5、WRF、GRAPES和AREMS、CCSM等有着惊人的计算量需求。这是因为软件在实际应用中需要有极高的实时性,必须在指定的时间内完成运算(一般不超过2小时),同时对气候研究(如气象预报)的精度提出了越来越高的要求,需要将预报精度从几百公里、几十公里提高到几公里,而这些都大幅度提高了计算量。另外从软件的处理流程上看,一般分为前处理、主模式和后处理。前处理包括资料的下载、数据同化等等,后处理主要是指图形化处理生成产品等,前/后处理一般对计算机要求不是太高;主模式是整个系统的主要部分,也是主要计算量所在,这个部分是对计算机性能(计算、通讯能力及整个系统的可靠性、稳定性等)要求非常高。
2、通讯密集,通讯性能要求高
由于气候模拟领域的应用软件大多为并行软件,一般采用有限差分格点模式并行计算,所以高性能计算平台在工作时,各个CPU之间的通讯量很大。同时需要整个系统的通讯具有良好的稳定性、可靠性,以满足整体系统可靠、稳定的工作需求。
3、整体建设方案要成熟,具有良好的性价比。
针对北京大学的具体应用需求,浪潮高性能计算行业应用专家针对CCSM模式应用与具体的网络工作环境,进行了专业测试与验证,并根据测试的结果提供系统建设的专业建议和意见,在此基础上提供了有针对性的系统构建方案。方案拓扑图如下:
方案主要特点:
计算节点:采用浪潮双路刀片计算节点构建超级计算集群,达到10万亿次/秒的计算性能,满足当前科研对计算性能的需求;
采用基于Intel全新的 32 nm Intel Westmere 处理器,在相同的芯片大小下能容纳更多的运算核心,使得CPU由原来的四核升级到六核,而且核心时脉提升空间进一步扩大,使其性能得到进一步提升,同时功耗表现亦得到改善;
采用高密度浪潮NX560T刀片服务器作为计算节点,在7U的空间内可扩展20个计算节点,超高的计算密度为用户后期扩展带来了方便,提供强劲的计算性能。
计算网络:
每个计算节点均配置了40Gbps Infiniband高效的互联网络,可以保持点对点40Gb/S的通信带宽,而延迟仅为1.53微妙,可以充分利用计算资源,最大限度发挥系统的效能。较高的通信带宽和较低的通信延迟,能够更好的保证并行计算的效率,提高加速比。
管理网络:
采用千兆以太网交换机组成,实现所有节点之间的管理信息通信。
IPMI管理网络:
配置百兆交换机,共同组成IPMI管理网络,连接所有本次新增的节点和原有节点,对整套系统提供IPMI管理服务。
存储系统: 满足当前和未来一段时间内的计算数据存储需求
IO节点:采用浪潮英信NF5220服务器,服务器做Raid 1提高节点数据安全性;
存储设备:浪潮 AS500G3 ,基于8Gb FC光纤盘阵存储盘阵,提供64TB存储空间同时,提供高速I/O,保证实际的应用需求;
对于所有节点均配置1+1冗余服务器专用低功耗节能电源。
图形工作站:
采用了浪潮专业图形工作站。配置了2块热插拔硬盘,做Raid 1数据保护;对于所有节点均配置1+1冗余服务器专用低功耗节能电源。
浪潮提供专业的的系统管理与作业调度系统:
部署TSJM1.0作业调度系统,实现多用户多作业的策略调度,提升资源利用率与管理效率;
部署浪潮TSMM3.0监控管理软件,实现对整套系统的单一映射,从而为系统管理员提供监控管理集群中各个节点的统一平台;
浪潮TSDM集群部署软件、浪潮睿捷集群备份软件;
Intel集群编译、调试、数学库等软件、MPI、PVM、Open MP等并行环境。
浪潮提供的系统构建方案具有计算性能卓越、系统运行稳定可靠、功耗控制领先、监控管理系统方便易用、系统开放易于扩展、保护原有建设投资等特点。
作为领先的高性能计算产品与应用创新领导厂商,浪潮一贯提倡深度挖掘行业应用,提出HPC系统不仅要“好用”,更要“用好”的理念,在清华大学、吉林大学、西安交通大学、山东大学、华中科技大学、安徽大学、中国海洋大学、山东超算中心等先后建设了从数十万亿次到千万亿次的超级计算机平台,具有丰富的超算系统建设运维经验。据慧聪邓白氏调研报告显示,2010年浪潮在高校高性能计算市场占有率第一。