申威26010扬名摆脱国外技术依赖_服务器高性能计算-中关村在线

国产申威26010的秘密武器

除了太湖之光夺冠，其实更令人兴奋的是其采用了国产处理器申威26010，可以说有着一定的历史意义。2015年4月，美国商务部发布公告，决定禁止英特尔向四家国家超级计算机中心出售Xeon Phi处理器。而在此之前，曾经的TOP500冠军天河二号采用的就是Xeon系列处理器。这意味着，天河二号将无法继续使用英特尔提供的用于升级系统的新款芯片。

然而，申威26010的出现击碎了外界对于国产化的质疑。与此同时，这款处理器也带来了一个“新名词”：众核。超算界早已对以GPU、众核为代表的异构计算持开明态度，GPU应用的场景越来越多，在算法上也有了更多的支持。从长远来看，异构集群对超算的重要性会加大，在确保灵活性和软件兼容性的前提下，追求更高的性能和更低的功耗。

一直以来，HPC的发展离不开军用和科研，太湖之光也不例外。事实上，申威在业内早有耳闻，但为什么外界鲜有人知呢？主要原因或许就是军方背景。申威系列芯片的研发单位是江南计算机所（即总参某部56所），而申威26010就是在国家高性能集成电路（上海）设计中心生产，被部署于无锡国家超级计算中心。总参某部56所创建于1951年6月，位于无锡。

申威最初的技术来源是DEC公司开发的Alpha 21164，后者在1995面世，采用0.5um制造工艺，主频为200MHz。不过，随着技术研发的深耕，江南所拓展出了自主的申威-64指令集，摆脱了Alpha的影子。

申威26010采用了“CPU+加速器”的方案（管理核心+运算核心），为64位RISC（主频1.45GHz），拥有260个处理核心和4个内存控制器。处理器内包括四个核心组，每组有65个内核，由8×8 Mesh架构计算集群（CPE）、一个管理单元（MPE）、一个内存控制器（MC）组成。其中，MPE和MC也可以被当作独立的处理核心，前者负责系统管理和通讯，后者则用于浮点运算，单个内存（128bit的DDR3）带宽为34GB/s，因此整个处理器提供了136.5GB/s的带宽。

TaihuLight
申威26010核心组结构（图片来自Jack Dongarra）

申威26010支持264位的矢量指令集，内置各32KB的L1指令缓存和数据缓存，以及256KB L2缓存，没有L3缓存。对于CPE来说，单条处理管线使得每个主频周期可进行8次浮点运算，浮点性能为11.6GFLOPS，而MPE则约为CPE的两倍。

申威26010节点基础设计（图片来自Jack Dongarra）

此外，申威26010可能并非采用NUMA（非统一内存访问架构）架构，这使得处理器组内之间的内容共享成为可能，在硬件方面没有缓存的一致性需求，由软件负责同步。相比之下，英特尔Kight Landing则是将缓存一致性（Cache Coherence）都交给硬件。从性能来看，申威26010的双精浮点峰值为3.06TFlops，与Kight Landing处在同一水平线。

不过，作为完全自主的国产处理器，申威26010也面临着一些问题。首先就是制造工艺，有人猜测28nm，尽管并不是官方说法，但相较英特尔的14nm还是有些落后。其次，太湖之光的HPCG（High Performance Conjugate Gradients）成绩也一般，峰值效率为0.3%，低于天河二号的1.1%。

太湖之光的HPCG成绩不理想（图片来自Jack Dongarra）

对于HPCG测试，可能是内存和互联宽带拖了后腿。前面提到过，申威26010采用的是DDR3，而英特尔Kight Landing已经用上六通道DDR4，Xeon Phi的内存带宽达到了512GB。虽然太湖之光在Linpack上大幅领先，但在HPC的适用性方面就会有些下降。总的来说，申威26010在计算能力上的优势有目共睹，不过由于更偏向军用，因此部分功能经过了特殊调校，应用范围有一定的局限。