服务器
    作者:王迪

    实力争斗 超级计算机究竟为何方神圣?

         [ 中关村在线 原创 ] 暂无评论

        超算机的硬件与架构

        从超级计算机设计架构上,相比1960年代希穆尔·克雷(Seymour Cray)在Control Data Corporation里设计超级计算机有着令人激动的变化,早期Cray超级计算机依赖于紧凑型的创新设计和局部并行计算来实现卓越的计算峰值性能。但是随着计算能力需求的增长迎来了大规模并行系统。

      纵观几十年来,超级计算机在硬件配置和架构设计上有了明显的变化,由数百数千甚至到如今数万计的处理器组成,但并不是仅仅把上万颗处理器“并联”就可以,还要考虑到效率问题,如何才能充分发挥它们的性能。

        如今的超级计算机的性能提升幅度很大,现在是千万亿次计算能力,下一个级是万万亿次。为了更好理解超级计算机到底是何方神圣?笔者针对如今世界最快超级计算机和中国最快超级计算机硬件和软件配置进行说明,给大家一个直观的印象:

    实力争斗 超级计算机究竟为何方神圣?
    “泰坦”超级计算机

      就“泰坦”超级计算机而言,200个定制的19英寸机柜和18688个计算节点,每个节点由一个16核AMD Opteron 6274处理器和一个NVIDIA Tesla K20 GPU组成。但系统却更换为最新的Cray XK7计算系统,同时内部配置也大为不同:

        采用AMD高性能的皓龙处理器,从原来12核心变为16核心,总的核心数量从原来的224256个增加到如今299008个;每颗处理器搭配开普勒架构的NVIDIA Tesla K20高性能计算卡,总计有高达18688个GPU。

      “泰坦”系统内存每个节点也有原来的16GB翻番为32GB,而且还有6GB GDDR5显存,总量从300TB增至710TB;硬盘是由一万块标准的1TB 7200转2.5寸机械盘,总容量10PB。

      泰坦的操作系统是Cray Linux Environment,基于SUSE 11。由于超算的大部分工作都是远程执行的,泰坦内部还有几十个10Gbps以太网链接,接入了能源部能源科学网络(ESNET)的100Gbps骨干网内。在峰值浮点性能方面,泰坦超过20PFlops,也就是每秒钟可进行2亿亿次计算。

      另外,当“泰坦”全速运行的时候,需要消耗高达900万瓦特电力,典型负载下也要700万瓦特,而这也是唯一限制它扩充的地方。为了减少供电线厚度,电压是很高的480V而不是当地标准的208V。

    GPU助力天河一号A 探秘全球最强超算机
    “天河”千万亿次超级计算机

      而作为中国最快的超级计算机,“天河一号”由140个机柜组成,由14336颗英特尔六核至强X5670 2.93GHz CPU、7168颗Nvidia Tesla M2050 GPU和2048颗自主研发的八核飞腾FT-1000 CPU。“天河一号”的硬件系统包括计算阵列、加速阵列、服务阵列,以及互连通信子系统、I/O存储子系统和监控诊断子系统等。

      ·计算阵列:2560个计算结点,每个计算结点集成2个Intel CPU,配32GB内存。

      ·加速阵列:2560个加速结点,每个加速结点含2个AMD GPU、 2GB显存。

      ·服务阵列:512个服务结点,每个服务结点含2个Intel EP CPU、32GB内存。

      ·互连通信子系统:采用两级Infiniband QDR互,单个通信链路的通信带宽为40Gbps、延迟1.2μs。

      ·I/O存储子系统:采用全局分布共享并行I/O系统结构,磁盘总容量1PB。

      ·监控:采用分布式集中管理结构,实现全系统的实时安全监测、系统控制和调试诊断等功能。

      “天河一号”的软件系统包括操作系统、编译系统、资源管理系统和并行程序开发环境等四部分组成。

      ·操作系统:操作系统采用64位Linux,面向高性能并行计算、支持能耗管理、虚拟化和安全隔离等进行了针对性设计。

      ·编译系统:支持C、C++、Fortran77/90/95、Java语言,支持OpenMP、MPI并行编程,提供异构协同编程框架,高效发挥CPU和GPU的协同计算能力。

      ·资源管理:提供全系统资源统一视图,实现多策略资源分配与作业调度,有效提高资源利用率和系统吞吐率并行程序开发环境并行程序开发环境提供一体化图形用户界面。

        就配置总结而言,笔者认为超级计算机无论从外形,还是在处理器、内存以及硬盘这些传统硬件方面可以说是以其数量远远高于用户所理解的个人电脑,并不是仅仅把上万颗处理器、内存和硬盘“并联”提供计算性能。而是还要考虑到效率问题,通过创新计算编译和管理平台,以及针对性设计的操作系统和网络、加速阵列组成,实现全面的优化集群的系统平台来提供实际计算应用。

    标签:服务器
    提示:支持键盘“← →”键翻页
    本文导航

    关注排行榜

    产品品牌

    文章推荐

    互动沙龙

    相关内容 网友评论 返回首页
    专家咨询