由于测序技术的飞速发展,人类发现的基因序列数目以指数级增长,对于如此数量庞大的基因进行同源性搜寻、比对、分析、遗传发育分析等等,往往伴随着巨大的数据处理量和并行计算量。同时,生命科学的研究对象往往是蛋白质和DNA的大分子,对这些分子的三维结构进行预测,研究它们的动力学特性、热力学特性及其在生命过程中如何发生作用等等,这些科学问题也要借助于高性能计算机。所以高性能计算机在生命科学研究中,应用非常广泛,扮演着及其重要的角色。
生物领域中的高性能计算按照其应用和计算特点,主要分为以下四类:第一,生物分子的结构测定,首先通过实验仪器对生物分子进行测量,然后使用一些后处理软件对原始的大量数据进行处理。有对DNA分子进行研究的Illumina 公司的测序仪Genome Analys,HiSeq 2000以及相应的后处理软件GAPipeline等;ABI公司的测序仪Solid3,Solid4以及后处理软件Bioscope。有对蛋白质分子进行研究的三维冷冻电镜方法及结构解析软件EMAN,SPIDER;利用Xray方法测量用软件CCP4、ARP/wARP,CNS进行解析等;质谱仪测序以及后续处理软件tandom(X!tandom)等。这类应用的特点是:实验仪器昂贵、计算持续时间长,对系统稳定性要求高;对IO要求高,容量和性能都用较高要求;对网络要求不高。第二,生物信息学,以实验测得的蛋白质、核酸序列为研究对象,对序列进行同源及相似性搜寻、比对、序列分析、遗传发育分析等,应用软件数量巨大(数十种),各种软件在同源性分析算法上各有特点,最常用的有BLAST,FASTA,HMMER,ClustalW,DNASTAR,PHYLIP,PAML,PAUP,T-Coffee,EMBOSS等,这类计算以整型为主,内存容量高,IO要求高,应用扩展性高,网络压力小。第三,分子动力学,从原子的角度利用经典力学模拟分子的运动,研究体系动力学和热力学特性,主要软件有AMBER ,Charmm,NAMD,Gromacs等,这类应用非常适合大规模并行,对网络要求比较大,节点间需要使用低延时、高带宽的Infiniband网。第四类,分子对接,模拟小分子配体与生物大分子受体的相互作用,预测两者间的结合模式和亲和力,从而进行药物的虚拟筛选,根据计算方法的不同分刚性对接、半柔性对接和柔性对接,应用软件有DOCK ,AutoDock,FlexX,Discovery Studio,ZDOCK,RDOCK,MORDOR等,多为任务级并行,扩展性良好,对网络性能要求不高。
基于对应用软件的特征分析,曙光推荐如下高性能计算集群解决方案:
计算子系统包括:高密度、低功耗、易管理的刀片服务器,如曙光TC3600/TC4600,刀片节点配置以双路为主,采用最新的64位Intel或AMD处理器,注重浮点峰值和内存性能;单机性能高、大内存、高I/O的SMP四路或八路胖节点;利用图形加速技术大幅度提高计算能力的GPU节点;计算网络采用低延迟、高带宽的InfiniBand,能大幅度提高应用程序的计算速度和并行加速比;针对大规模高性能计算集群系统,全局共享存储的性能和扩展性非常关键,目前主流的解决方案是采用分布式的并行存储系统,如曙光ParaStor 100/200。此外,关键应用可以使用曙光Clusnap集群容错模块进行系统级断点保护。在软件层面,曙光为生物高性能计算用户配备完备的并行软件开发和运行环境;配置曙光Gridview集群监控管理及作业调度软件,包含针对不同应用软件开发的Web作业提交界面ClusPortal,可以大大降低高性能计算机的使用门槛。