另一颗心脏——GPU_服务器产业-中关村在线

　　GPU和前文介绍的至强融核协处理器，其实都主要是针对高度并行计算的应用。但由于产品具体涉及的生态系统有所不同，故此分开讨论。

　　GPU一开始主要是应用在图形显示核心领域，通常被应用在嵌入式系统、移动电话、个人电脑、工作站、游戏机，甚至某些大型计算机集群等。而今，GPU已经不再局限于3D图形处理了，GPU通用计算技术发展已经引起业界不少的关注，事实也证明在浮点运算、并行计算等部分计算方面，GPU可以提供数十倍乃至于上百倍于CPU的性能。

　　GPU通用计算方面的标准目前有OPEN CL、CUDA、ATI STREAM。其中，OpenCL(全称Open Computing Language，开放运算语言)是第一个面向异构系统通用目的并行编程的开放式、免费标准，也是一个统一的编程环境，便于软件开发人员为高性能计算服务器、桌面计算系统、手持设备编写高效轻便的代码，而且广泛适用于多核心处理器(CPU)、图形处理器(GPU)、Cell类型架构以及数字信号处理器(DSP)等其他并行处理器，在游戏、娱乐、科研、医疗等各种领域都有广阔的发展前景。

末日求生工具！2012最值得关注十大产品
AMD FirePro S10000

　　今年，AMD和Nvidia都推出了面向高度并行计算的GPU产品。AMD在上月的早些时候，推出了面向高性能计算和图形密集型应用、虚拟桌面基础设施(VDI)和工作站图形应用的服务器级“FirePro S10000”。

AMD FirePro系列图形显卡规格（图片来自AMD）

　　FirePro S10000搭载两个GCN架构的Tahiti核心，拥有总计3584个流处理器，每个核心均配置有384-bit 3GB GDDR5显存。采用PCI-E 3.0接口设计，提供有4个mini DP接口和1个DVI接口，默认核心/显存频率为825/1250MHz（显存数据频率为5000MHz），最大功耗为375W，规格上相当于两张HD 7950显卡。

NVIDIA Tesla K20/K20X规格

　　Tesla K20有两款型号，最高端的是K20X，拥有14组SMX单元，2688个CUDA核心，位宽384bit，搭配6GB GDDR5显存，等效频率5.2GHz。核心频率为732MHz，单精度浮点性能为3.95TFLOPS,双精度则为1.31TFLOPS，TDP功耗235W，使用TSMC 28nm工艺制造。

NVIDIA Tesla K20 GPU

　　Tesla K20则只有13组SMX单元，2496个CUDA核心，单/双精度性能分别为3.52/1.17TFLOPS。显存频率也是5.2GHz但是精简掉一组显存控制器，位宽320bit，搭配5GB GDDR5显存，频率也只有706MHz，TDP则为225W。这两款产品都可以使用被动散热（主要依赖于机房冷却系统和机柜主动散热）。

位于橡树岭国家实验室的Titan超级计算机

Titan超级计算机节点

位于田纳西州橡树岭国家实验室的Titan超级计算机，其峰值性能的90%来自于18688颗NVIDIA Tesla K20 GPU加速器。上图展示的是Titan超级计算机的其中一个节点，它由4个AMD Opteron处理器和4个Tesla K20加速卡组成。

【入选理由】：

GPU使显卡减少了对CPU的依赖，并进行部分原本CPU的工作，尤其是在3D图形处理时，能为CPU计算资源提供更多支持。这也就不难理解当今很多科研机构和超级计算机都采用了异构的计算环境。随着多年的发展，GPU已经在很多领域得到应用，尤其是在超级计算机方面。比如中国“星云”和“天河一号”分别配备了AMD Radeon HD 4870 X2、NVIDIA Tesla C2050，通过使用特殊软件让GPU执行并行数据操作，分担CPU工作量，提升计算速度。

但仅凭单一的架构来实现更高的计算效率显然并不现实。采用CPU+GPU的异构计算模式（包括CPU+协处理器、加速处理器等），势必会有更大的成长空间。至强融核和GPU的方式不同的地方就在于，它能够提供兼容的编程环境，而且还支持原有的编程平台，能够在广泛使用的x86架构中带来更具效益、稳定性的高度并行计算性能，并最终最大化保护用户的投资。