服务器
    作者:徐鹏

    揭秘太湖之光:纯国产如何称雄TOP500?

         [ 中关村在线 原创 ] 暂无评论

    国产申威26010的秘密武器

      除了太湖之光夺冠,其实更令人兴奋的是其采用了国产处理器申威26010,可以说有着一定的历史意义。2015年4月,美国商务部发布公告,决定禁止英特尔向四家国家超级计算机中心出售Xeon Phi处理器。而在此之前,曾经的TOP500冠军天河二号采用的就是Xeon系列处理器。这意味着,天河二号将无法继续使用英特尔提供的用于升级系统的新款芯片。

      然而,申威26010的出现击碎了外界对于国产化的质疑。与此同时,这款处理器也带来了一个“新名词”:众核。超算界早已对以GPU、众核为代表的异构计算持开明态度,GPU应用的场景越来越多,在算法上也有了更多的支持。从长远来看,异构集群对超算的重要性会加大,在确保灵活性和软件兼容性的前提下,追求更高的性能和更低的功耗。

      一直以来,HPC的发展离不开军用和科研,太湖之光也不例外。事实上,申威在业内早有耳闻,但为什么外界鲜有人知呢?主要原因或许就是军方背景。申威系列芯片的研发单位是江南计算机所(即总参某部56所),而申威26010就是在国家高性能集成电路(上海)设计中心生产,被部署于无锡国家超级计算中心。总参某部56所创建于1951年6月,位于无锡。

      申威最初的技术来源是DEC公司开发的Alpha 21164,后者在1995面世,采用0.5um制造工艺,主频为200MHz。不过,随着技术研发的深耕,江南所拓展出了自主的申威-64指令集,摆脱了Alpha的影子。

      申威26010采用了“CPU+加速器”的方案(管理核心+运算核心),为64位RISC(主频1.45GHz),拥有260个处理核心和4个内存控制器。处理器内包括四个核心组,每组有65个内核,由8×8 Mesh架构计算集群(CPE)、一个管理单元(MPE)、一个内存控制器(MC)组成。其中,MPE和MC也可以被当作独立的处理核心,前者负责系统管理和通讯,后者则用于浮点运算,单个内存(128bit的DDR3)带宽为34GB/s,因此整个处理器提供了136.5GB/s的带宽。

    TaihuLight
    申威26010核心组结构(图片来自Jack Dongarra)

      申威26010支持264位的矢量指令集,内置各32KB的L1指令缓存和数据缓存,以及256KB L2缓存,没有L3缓存。对于CPE来说,单条处理管线使得每个主频周期可进行8次浮点运算,浮点性能为11.6GFLOPS,而MPE则约为CPE的两倍。

    TaihuLight
    申威26010节点基础设计(图片来自Jack Dongarra)

      此外,申威26010可能并非采用NUMA(非统一内存访问架构)架构,这使得处理器组内之间的内容共享成为可能,在硬件方面没有缓存的一致性需求,由软件负责同步。相比之下,英特尔Kight Landing则是将缓存一致性(Cache Coherence)都交给硬件。从性能来看,申威26010的双精浮点峰值为3.06TFlops,与Kight Landing处在同一水平线。

      不过,作为完全自主的国产处理器,申威26010也面临着一些问题。首先就是制造工艺,有人猜测28nm,尽管并不是官方说法,但相较英特尔的14nm还是有些落后。其次,太湖之光的HPCG(High Performance Conjugate Gradients)成绩也一般,峰值效率为0.3%,低于天河二号的1.1%。

    TaihuLight
    太湖之光的HPCG成绩不理想(图片来自Jack Dongarra)

      对于HPCG测试,可能是内存和互联宽带拖了后腿。前面提到过,申威26010采用的是DDR3,而英特尔Kight Landing已经用上六通道DDR4,Xeon Phi的内存带宽达到了512GB。虽然太湖之光在Linpack上大幅领先,但在HPC的适用性方面就会有些下降。总的来说,申威26010在计算能力上的优势有目共睹,不过由于更偏向军用,因此部分功能经过了特殊调校,应用范围有一定的局限。


    提示:支持键盘“← →”键翻页
    本文导航

    关注排行榜

    产品品牌

    文章推荐

    互动沙龙

    相关内容 网友评论 返回首页
    专家咨询