英特尔每年年初都有向业界汇报其重要技术研发进展的习惯,在2月中旬于旧金山召开的“2007年国际固态电路研讨会(简称ISSCC 2007)”上,它就展示了全球首款具备每秒万亿次浮点运算性能的可编程处理器(下文简称“万亿级处理器”)研究用原型产品,并声称要在未来5-10年内完成这种处理器的产品化,将其推广到服务器、PC和手持设备中,让用户在这些产品上获得万亿级计算、即每秒处理万亿字节数据的应用体验。
对于业界来说,英特尔公布的上述信息绝对算得上是一颗重磅炸弹,其威力主要来源于两方面:首先是它要在单颗处理器上实现目前许多颗顶级服务器处理器“合力”才能达到的性能。据了解,全球第一个触到万亿次浮点运算性能标竿的,就是英特尔1996年为美国Sandia国家实验室开发的ASCI Red超级计算机,可该系统足足配备了近1万颗奔腾Pro处理器。即使是今天在IA服务器处理器市场上傲视群雄的双核安腾,在四路的配置下也只能实现约每秒450亿次的浮点运算能力。相比之下,单颗处理器即可支持万亿次浮点计算能力的意义已无庸赘言。
其次,也是最让业界感到震撼的,即英特尔并不打算将这种万亿级处理器的用途局限于高性能或企业计算领域,还要把它打入个人消费级计算产品,换言之,英特尔就是要让万亿级计算这个“今”日王谢堂前燕,尽快飞入寻常百姓家。
不过,与以往的技术下移相比,万亿级计算走向平民化的“落差”实在太大,而且这一构想要在未来5-10年内实现,看起来就更像是一次豪赌,若非英特尔拿出了性能达标的万亿级处理器原型产品,人们恐怕还很难预测它能有多大胜算。
英特尔万亿级处理器原型揭秘
谈到英特尔万亿级处理器原型产品,其实它还有一个更加形象和为人们熟悉的名称——英特尔80核处理器,它最显著的特征就是在面积为275平方毫米、尺寸仅比拇指指甲盖略大的硅片(Die)上通过“瓷砖片”平辅设计、以8×10的布局集成了80个完全相同的简单内核(英特尔称这些内核为Tile,即瓷砖片)。
据了解,这些内核的单位面积为3平方毫米,主要由两个单周期单精度可编程浮点引擎、寄存器组、3KB指令缓存、2KB数据缓存及拥有5个39位端口的路由器组成。为了简化设计,英特尔没有在这些内核上采用X86架构,而是选择了与安腾EPIC架构类似的96位VLIW(超长指令字)架构。
除在指令架构上与英特尔现有处理器不同外,这款原型产品的晶体管集成密度也出乎人们的意料。目前基于65纳米制程的酷睿2双核处理器在143平方毫米的硅片上集成了2.91亿晶体管,相比之下,采用同一制程生产出来的万亿级处理器原型产品硅片面积虽然大了近一倍,但集成的晶体管数量却只有约1亿个。造成这一结果的原因有二:一是这款原型产品只是一个用于实验室研究的样品,内核较为简单,没有像酷睿2一样配备大容量的缓存;二是它把不少硅片面积留给了内核与内核之间的数据连线。
虽然在晶体管密度指标上没有抢眼表现,但这并未影响英特尔万亿级处理器原型产品冲刺性能和能效高峰——它在工作电压为0.95V时,时钟频率可达3.16GHz,浮点运算性能高端每秒1.01万亿次,功耗却为62瓦,每瓦浮点性能约合160亿次。
英特尔:“80核”并无实际意义
尽管英特尔的万亿级处理器原型产品向业界展示了惊人的性能,但许多媒体和消费者似乎对它集成的内核数量更感兴趣。毕竟,与目前PC处理器只集成两或四个内核的水平相比,“80核”对他们来说颇具吸引力。
不过,英特尔却认为“80核”这一数值没有什么实际意义。它展示的这款万亿级处理器原型产品只是供自己研究使用,并不会实现产品化。这是因为其内核并非基于X86架构,而且也只配备了浮点引擎,不具备通用处理器兼顾整数和浮点运算的能力,对用户来说并无实用价值。
“我们未来真正推向市场的万亿级处理器集成的内核数量并不一定是80个,很可能会远低于这一数字”,英特尔中国研究中心总经理杜江凌博士于今年2月底在京举办的英特尔万亿级计算研究项目沟通会上向记者透露:“它不会采用仅针对浮点运算进行加速的内核,它可能会由一些性能更高的通用X86内核以及可对高清晰度视频编/解码、安全加密、数字信号处理、3D图形纹理处理等任务和应用进行硬件加速的可编程固定功能单元组成,以保证在实现每秒万亿次浮点运算性能的同时,对上述特定任务和应用进行优化。”
或许有人会问,既然现有的万亿级处理器原型产品与未来用户真正可购买和用到的万亿级处理器有这么多不同之处,那为什么英特尔还要设计制造出它,并向业界大张旗鼓地展示呢?对此,杜江凌博士表示:英特尔抛出这款原型产品的真正目的,是要向大家介绍它所采用的、未来也将用于产品化万亿级处理器的片上网络、“瓷砖片”平辅设计、精细粒度能源管理等关键性创新技术和设计理念。
片上网络助推万亿位数据传输
英特尔在万亿级处理器原型产品上导入的片上网络,实际上是一种网状网络,它可将所有内核以网格状联网,为内核内部和内核之间提供超高带宽的通信。而它的设计目标,就是要在万亿级处理器内部以每秒万亿位的速度来传输数据,以确保其性能能够充分释放。
这种片上网络主要由内核中的路由器和内核之间的数据线路组成,如前文所述,英特尔万亿级处理器原型产品上每个内核的路由器都有5个端口,其中4个端口引出的数据线路主要用来与周围四个内核进行数据传输和交换,还有一个端口则是用来连接3D堆栈存储器。当这款原型产品运行在4GHz时,单个内核的路由器数据吞吐量就可达到80GB/s,延迟也只有1.25纳秒。而在3.16GHz的时钟频率下,整个原型产品的总带宽、即每秒钟内在最小的对剖平面上通过所有连线的最大数据位数可达到1.62万亿位。
虽然原型产品的片上网络已获得不俗的性能表现,但预计英特尔在发布正式的万亿级处理器前,还将进一步对它进行改良。
英特尔的“瓷砖片”平辅设计与片上网络技术是紧密相关的,它可以把内核像“瓷砖片”一样重复平辅开来,从而缩短处理器的设计周期,降低其设计难度。虽然这种技术的优势在设计集成多个相同核心的处理器时表现得最为明显,但在未来英特尔设计由多种在尺寸、功能或结构上均不相同的内核组成的万亿级处理器时,它也一样能发挥重要作用。
精细粒度能源管理节能有高招
精细粒度能源管理是决定英特尔万亿级处理器原型产品能效表现的重要因素。根据应用对性能的需求,它不但能让任意内核处于休眠或激活状态,还可让每个内核上的浮点引擎、指令/数据缓存、路由器等21个可休眠区域独立休眠或激活。当然,为了保证片上网络的高效运作,所有内核的路由器通常都会保持开启状态。
精细粒度能源管理的成功实现,应归功于休眠晶体管。这种晶体管在英特尔现有的酷睿2等多款处理器上已得到广泛应用。在万亿级处理器原型产品上,每个内核计算单元(包括浮点引擎、指令/数据缓存、寄存器组等)使用的晶体管中有74%都是休眠晶体管。
除休眠晶体管外,英特尔还在万亿级处理器原型产品上应用了新式模组时钟方案。目前市场上的处理器产品多使用全局时钟方案,该方案在处理器内部时钟信号派送上消耗的功耗可占处理器整体功耗的30%左右,相比之下,采用模组时钟方案的英特尔万亿级器原型产品工作在4GHz时,用于时钟信号发送的功耗为2.2W,在整体功耗中所占比例仅为1.2%。
与其他处理器一样,英特尔这款原型产品还能通过调低工作电压和时钟频率来节能,在电压降至0.6V时,它的时钟频率为1GHz,功耗为11W,每秒浮点运算能力依然能达到3100亿次。
实现万亿级计算不能只靠处理器
就像只安装了宝马发动机的拖拉机无法给使用者带来与宝马车相同的驾驶体验一样,真正的万亿级计算平台,也不能仅仅配备一颗万亿级处理器,它还得在所有组件之间(如在处理器和内存间)构建支持每秒万亿位数据传输能力的系统总线,并具备高速大容量的存储能力以及确保有出色的应用和工作负载能够让它的性能得到最大化的利用。
有鉴于此,英特尔对万亿级计算的研究并没有局限于处理器,而是由涉及处理器、平台、编程三大领域的100多个研究项目组成。目前人们已知的项目就包括了针对处理器的可升级内存、多核架构、固定功能单元;属于平台范畴的3D存储器、缓存等级、虚拟化/分区;与编程相关的前瞻多线程、负载分析、事务内存、编辑器和程序库等。据杜江凌博士透露,英特尔中国研究中心正在参与一些编程和平台领域关键项目的研发工作。
杜江凌博士还表示,在发布80核的万亿级处理器原型产品后,英特尔接下来就将在这种处理器上应用3D堆栈存储器,并尝试用基于英特尔架构的通用内核来开发更加智能的原型产品。所谓3D堆栈存储器,就是在处理器封装中的处理器硅片下方堆叠多层DRAM或闪存芯片,让它们为万亿级处理器提供更多等级和更大容量的缓存,在不占用处理器硅片宝贵面积的同时,有效隐藏处理器与内存之间的数据延迟。面对万亿级处理器与内存、芯片组及其他平台组件之间的高速通信需求,英特尔则计划以基于硅光子技术、数据传输速度有望超越40Gb/s的光纤线路作为系统总线,将它们连接起来。
尽管有了明确、细化的研究项目,在关键技术的积累和推进上也获得了一定成绩,但在实现万亿级计算平民化构想的道路上,英特尔还有许多难关需要攻克,它也将为此付出巨大的人力和财力。不过,如果它真能按时兑现这一承诺,那么,像人工智能、即时视频通信、高逼真游戏、多媒体数据挖掘及实时语音识别这些如今只能在高端计算机上运行或在科幻小说中看到的应用,都有可能走入普通大众的日常生活,预计届时英特尔由此获得的收益,也将远远高于它在今后数年内对万亿级计算的投入。
- 相关阅读:
- ·虚拟机非容器;浪潮服务器满足网络带宽
//server.zol.com.cn/546/5469150.html - ·浪潮K1:助力珠海公安核心系统业务改造
//server.zol.com.cn/547/5470242.html - ·看!江山易改:八大改变生活的并购案
//server.zol.com.cn/546/5462817.html - ·大数据 寻找适合分级存储体系的服务器
//server.zol.com.cn/545/5453476.html - ·预算不够?企业IT开支如何花在"刀刃上"
//server.zol.com.cn/544/5447379.html