在物理和化学学科中,随着理论计算方法的发展和成熟,以及计算机软、硬件技术的不断进步,计算机模拟研究渐趋普及,已成为继实验手段、理论推导之后的第三类重要的科研方法。相应领域的计算机模拟研究也逐渐形成独立的学科,比如计算化学、计算材料学等。借助现代高性能计算机,研究人员可以从理论层面上对实验观测到的现象进行深入分析,可以开展那些实验上无法或难以进行的研究,也可以通过计算机模拟去取代一些投入高、周期长的实验研究,从而大幅度降低研发投入的人力、物力成本,显着加快研发周期。
计算化学主要研究非周期性结构的分子体系,主要有分子力学和量子化学两种方法。前者基于牛顿力学,准确性偏低,可研究的体系很大,一般在一万到一百万个原子;后者基于量子力学,准确性高,可研究的体系比较小,一般不超过500个原子。二者皆有优缺点,所以将二者结合的QM/MM方法目前也较流行。计算化学的主流计算软件有Gaussian、GAMESS、QChem、ADF、NWChem等。计算材料主要研究周期性结构的物理体系,计算方法较多,比如基于电子密度泛函数理论(DFT)的第一性原理计算方法。主流的计算软件有VASP、Materials Studio、PWScf、Abinit、CPMD、ATK、Wien2K、Siesta、Octopus等。
计算材料和计算化学不同应用程序对高性能计算机的需求比较相似,个别应用软件会有一些特征差异。这些程序基本都属于计算密集型和访存密集型应用,对处理器的浮点运算能力和内存性能要求很高;大部分主流软件都是基于MPI的并行程序,从并行算法分析,属于通信密集型应用,对计算网络的延迟和带宽性能求较高;部分应用软件运行时会有频繁的I/O操作,对高性能计算集群的共享存储或者计算节点的本地存储的性能要求较高。
基于对应用软件的特征分析,曙光推荐如下高性能计算集群解决方案:
计算子系统采用高密度、低功耗、易管理的刀片服务器,如曙光TC3600/TC4600,刀片节点配置以双路为主,采用最新的64位Intel或AMD处理器,注重浮点峰值和内存性能;针对个别应用,还可以配置一些单机性能高、大内存、高I/O的SMP多路胖节点;计算网络采用低延迟、高带宽的InfiniBand,能大幅度提高应用程序的计算速度和并行加速比;针对大规模高性能计算集群系统,全局共享存储的性能和扩展性非常关键,目前主流的解决方案是采用分布式的并行存储系统,如曙光ParaStor 100/200。此外,关键应用可以使用曙光Clusnap集群容错模块进行系统级断点保护。在软件层面,曙光为计算材料和计算化学用户配备完备的并行软件开发和运行环境;配置曙光Gridview集群监控管理及作业调度软件,包含针对不同应用软件开发的Web作业提交界面ClusPortal,可以大大降低高性能计算机的使用门槛。