导语:超级计算机(HPC)被业内人士誉为计算“超人”,别看它们一个比一个“块头”大,但在它们强壮的外表下同样有着不为人知的酸甜苦辣。本文就是要带你解读这些“超人”的六大烦心事。
通过上一篇IT号外文章——“HPC走下‘神坛’”,相信大家已充分认识到了HPC技术的实用价值。打个比方,如果我们把PC比作普通人的话,那么HPC系统(或称超级计算机)就称得上是“超人”了,因为就算是比较寻常的HPC系统,其计算能力也相当于PC的数千倍了。而顶级的HPC系统,例如风行欧美的IBM“蓝色基因”系列,又如国产的“曙光机”、“浪潮机”、“联想机”或“神威机”等,其能力更是不可限量!也因为所此,它们才能担负起解决大型和复杂问题的重任。
不过,就像科幻电影中的超人遇到“氪”物质就会气力尽失,或时常为爱情和亲情的问题及敌人发起的舆论攻击感到困挠一样。HPC系统这个计算领域的“超人”在其成长过程中,也会遇到各种来自自身或外部的挑战和障碍,就目前而言,这些让它烦心的事情主要集中在以下六方面:
一、有劲使不出,应用效率偏低
全球HPC TOP500也好,中国的TOP100也罢,比的都是HPC系统的潜能,即理论运算峰值速度及Linpack基准测试性能,但它们却无法反映HPC的实用性能。实际上,对于很多科研院所、高校、企业等HPC应用机构来说,因为软件、配置、管理等因素导致其HPC系统应用效率低下的例子比比皆是,例如一些用户HPC系统的硬件规模虽然在不断扩展,但其实际计算力却没有明显提升,又或是现在拥有几百个甚至上千个计算核心的HPC集群系统虽然大量涌现出来,但是能充分利用其性能的应用软件却是少之又少……结果就是这些用户虽然买得起HPC,却用不好它。
二、系统配置不够“平衡”
HPC这个计算“超人”的性能,指的可不仅仅是“计算性能”,而是包括CPU浮点处理能力、I/O带宽和内存带宽三个方面。不同种类应用对于这三方面性能的需求不尽相同,以石油勘探行业为例,油藏模拟类应用就对内存带宽和延迟比较敏感,而地震资料处理则需要强大的计算性能。
在这种情况下,如果用户不能科学地根据其应用软件的性能需求来合理配置HPC系统,就不免会造成它的“先天失调”,如为通信密集型的应用配置了针对计算密集型应用优化的硬件平台,就会出现这样一种情况:节点空有强大的计算力,但由于I/O通信带宽的限制,造成了数据的堆积,带来了计算资源的极大浪费。
三、有“失业”危机,软硬件发展失衡
别看国产的百万亿次、千万亿次HPC系统在今年频频亮相,但它们随时都面临着“失业”的风险!
不信?我们来看两个例子:一个是美国能源部下属的橡树岭国家实验室的Jaguar TX5千万亿次级HPC系统,它拥有15万颗CPU内核,其科学计算作业任务安排得很饱满:可利用其3万颗以下CPU内核的作业占50%;利用3-4.5万颗内核的作业占32%,利用4.5-9万颗内核的作业占18%。相比之下,中国上海超级计算中心的曙光5000A百万亿次HPC系统虽有3万颗CPU内核,但其应用却远没有跟上——其上使用16颗内核以下的作业占到了60%,17-160个内核的作业占39%,160个内核以上的作业仅占1%。
上面这种应用上的差距主要源于我国HPC应用软件的缺乏。我们HPC系统的硬件技术虽然在这几年内得到了长足的发展,但应用软件的基础却一直很薄弱,而且相关的人才、软件投资和创新研发体制也不够健全,这使得中国在HPC应用上一直面临“计算规模受限制,计算精度、分辨率不高,关键应用受限制,不易改进和发展”等多方面的挑战,进而造成了“大机器,小应用,软硬发展失衡”的困局。
- 第1页:有劲使不出,还面临失业危机