1Sandy Bridge架构综述
Sandy Bridge是英特尔公司在2005年开发出的一种全新微处理器架构代号,它主要用来取代此前的Nehalem微架构。Sandy Bridge架构覆盖移动设备、笔记本电脑、台式机和企业级服务器。2009年,英特尔首次亮相Sandy Bridge处理器,并在2011年正式推出了基于该架构的处理器。
Sandy Bridge微架构全方位解析
Sandy Bridge微架构基于32nm制程工艺,其继任者“Ivy Bridge”则将制程工艺提升至更为精细的22nm。根据英特尔著名的Tick-Tock策略,从Sandy Bridge升级到Ivy Bridge,属于核心工艺的改进,也就是Tick的范畴(TOCK属于微架构改进),而Sandy Bridge则属于TOCK范畴。
根据Intel的Tock Tick处理器发展策略,Nehalem之后,Intel处理器架构依次为:Westmere (Tick, 2009, 32nm), Sandy Bridge (Tock, 2010, 32nm), Ivy Bridge (Tick, 2011, 22nm)以及Haswell (Tock, 2012, 22nm)。
Sandy Bridge至强处理器采用了与桌面级酷睿处理器类似的命名规范,分为E3、E5和E7三个系列。其中,E3系列是面向入门级单路服务器的产品,E5系列则面对了主流的双路服务器平台。E7则采用了Westmere-EX命名。
2Sandy Bridge优势特性
作为Nehalem架构的延续,Sandy Bridge沿用了Nehalem中的Clarkdale架构,在CPU中真正融合了GPU,PCI-E控制器整合到CPU内,用于和显卡直接通信,同时仍然会继续使DMI连接外部设备,履行原有南桥所要履行的任务,继续保持FDI接口,实现显示输出。不过,Sandy Bridge并没有采用共用DMI总线设计,从而提高了外部设备通信带宽。
Sandy Bridge架构的前端部分也重新获得优化设计。Sandy Bridge没有直接在指令拾取和预解码阶段进行改动,而是对整个前端部分进行了重新设计,通过革新的分支预测单元以及在解码阶段加入一个新的部件来增强整个前端部分的输出能力,同样达到了消除瓶颈的目的。
全新的分支预测单元
Sandy Bridge的L1 I-Cache也获得了改进,它从此前的Nehalem 4路组关联提升到了8路组关联,降低了Cache Line碰撞的几率,降低了页面冲突。而且,L1 I-Cache对应的L1 ITLB也略微扩大,2M/4MB对应的TLB表项从Nehalem的7+7提升到了8+8(对每一个硬件线程提供8个表项),可以覆盖更大的代码地址空间。
另一方面,Sandy Bridge的分支预测单元也在Nehalem的基础上进行了重新规划。通过对分支表结构的压缩定义,BTB(Branch Target Buffer,分支目标缓存)在同样容量下保存的分支目标能实现翻番。同样,GBH(Global Branch History,全局分支历史表)也能保存更多、更深的项目。这样一来,有助于提升性能又能降低能耗,避免无谓的分支代码执行带来的性能损失和能源浪费。
微处理器架构前端还有一个比较明显的变化是,加入了微指令缓存Uop Cache,它保存有经过解码的微指令,并且Uop Cache本身也支持指令的输出,从而帮助降低指令拾取延迟,让前端可以在更多的时间内处于持续输出4 uop/cycle的状态,这很大程度消除了Nehalem前端的瓶颈。
Sandy Bridge架构下的微指令缓存Uop Cache
在Nehalem微架构当中,ROB(ReOrder Buffer,重排序缓存)顺序保存了所有uop及其所有的重命名寄存器的数据和状态,架构寄存器则保存在RRF当中。在Sandy Bridge的PRF上,ROB不再保存重命名寄存器的数据,取而代之的是保存多个指向PRF的指针,架构寄存器包含在RRF当中,通过状态位来标识。
Sandy Bridge架构上的AVX指令集支持更多的操作数,支持的最大寄存器宽度也在前一代Nehalem基础上实现翻番,简化了结构,增大了ROB容量,进一步提升了乱序执行的性能。
3Sandy Bridge环形总线
在处理器的存取单元方面,Sandy Bridge的Reservation Station容量从Nehalem的36项目提升到了54项目,增加了50%,乱序执行窗口的扩大可以提升处理器的乱序执行能力。
针对AVX的最新的命令编码系统,Sandy Bridge所带来的融合了乘法的双指令支持。从而可以更加容易地实现512bits和1024bits的扩展。Sandy Bridge允许256-bit AVX指令借用128-bit的整数SIMD数据路径,在最小的核心面积上可以实现双倍的浮点吞吐量,每个时钟可以进行两个256-bit AVX操作。
Sandy Bridge在三级缓存访问方式上也有重大改进。得益于Sandy Bridge的环形总线设计,CPU核心和GPU核心可以完美的共享高速三级缓存,每个核心、每一块三级缓存(LLC)、集成图形核心、媒体引擎、系统助手(System Agent)都在这条线上拥有自己的接入点。
Sandy Bridge采用CPU、GPU共享L3设计
Sandy Bridge全新System Agent系统助手
这条环形总线由四条独立的环组成,分别是数据环(DT)、请求环(QT)、响应环(RSP)、侦听环(SNP) 。每条环的每个站台在每个时钟周期内都能接受32字节数据,而且环的访问总会自动选择最短的路径,以缩短延迟。随着核心数量、缓存容量的增多,缓存带宽也随时同步增加,因而能够很好地扩展到更多核心、更大服务器集群。
点击下载:Sandy Bridge CPU接口图表[PDF格式]
接口方面,Sandy Bridge架构下的不同产品采用了不同的CPU接口。具体来说,定位于入门级单路服务器市场的Sandy Bridge-DT,采用了LGA1155接口(Sandy Bridge Socket H2)。Sandy Bridge-EN则采用了LGA1356接口(Sandy Bridge Socket B2),用于高性能服务器和工作站的Sandy Bridge-EP则采用LGA2011接口(Sandy Bridge Socket R)。
4Sandy Bridge企业产品
根据应用的不同,Sandy Bridge架构既有不同系列处理器产品,也有该架构本身的细微划分。其中Sandy Bridge-EN用于高密度,低功耗的服务器;Sandy Bridge-EP用于高性能服务器和工作站。它们都取代现有的Xeon 5600系列。另外,还有主要定位在入门级单路服务器市场的Sandy Bridge-DT。
至强处理器
英特尔至强Sandy Bridge-E(含企业级市场的EP、EN)产品在去年年初的时候已经被陆续推出。Sandy Bridge-EP将被用来取代Westmere-EP芯片,主要应用在双路和四路的LGA 2011主板上。这些处理器拥有4通道内存接口和40条PCI-E 3.0通道,I/O控制器(北桥)已经和CPU部分融为一体,有助于带来相当强大的性能提升效率。
Sandy Bridge-EP拥有与Sandy Bridge-E相同的晶圆,但开启了许多酷睿家族中被限制的功能。其中包括双QPI(这项功能的开启主要为满足多处理器封装中的封装内通信需求),最高支持8核16线程,并支持20MB的三级缓存。Sandy Bridge-EP也将集成四通道DDR3内存控制器,而PC3-12800(DDR3-1600MHz)将作为最优内存标准,最高将支持768GB内存。
Sandy Bridge-EP被设计为面向双路系统,但它可以升级到四路或者更大系统,和具有更高可扩展性的Westmere-EX( Xeon E7-x8xx系列)并存,以提供完整的产品线。Sandy Bridge-EP产品中,主要包括单路市场的E5-1600系列,双路处理器则主要集中在至强E5-2600系列,而四路处理器则由至强E5-4600系列来承担。
其中E5-2600系列拥有最多八个核心、十六个线程、20MB三级缓存、两条8GT/s QPI互联总线、40条PCI-E 3.0总线和一条PCI-E 2.0 DMI总线;支持四通道DDR3内存,频率最高1600MHz,最多24条内存条,最大容量768GB;支持AVX指令集和大型虚拟化页面技术(Large VT Pages);功耗从60-150W不等。是首个整合PCI-E控制器的服务器处理器,支持PCI-E 3.0标准规范,输入输出延迟可降低最多32%,带宽则增加最多两倍。
双路Sandy Bridge EN/EP的异同点对比(点击图片看大图)
Sandy Bridge-EN产品中,主要包括单路市场的至强E3-1200系列、双路市场的E5-2400。至强E5-2400的内存通道仅为3个,1条QPI总线,24条PCI-E 3.0总线,功耗则最高为95W。
5Sandy Bridge产品应用
作为TOCK策略的组成部分,Sandy Bridge架构更多的是现有架构的一种改进和增强,不过这种改进更多的体现在模块化和细节设计方面。在整个架构带来的功能特性、性能、功耗各方面都有不错表现。Sandy Bridge新增微指令缓存,重新规划了分支预测单元 ,使得预测精度更高,降低功耗,提升性能效率。
最为重要的变化,当属Sandy Bridge架构对图形核心与媒体引擎的整合,将GPU和CPU实现真正融合,全面提升多媒体运算性能。另外,还引入了环形总线和三级缓存共享的设计方案。这种底层架构设计极大增强了系统扩展性,能够支持不断增长的核心数量 、三级缓存容量、GPU性能,也有望将多核心时代变成众核心时代。
Sandy Bridge微处理器架构
以全新命名方式的至强E3、E5系列代表的Sandy Bridge,为企业级市场注入了一股新活力。而且以更加明确的市场细分和单路、双路、四路及以上面向不同应用的产品系列,能更有针对性的满足用户需求。
目前在主流市场中,台式机与笔记本已经全面向Sandy Bridge架构转移。在企业级市场,随着至强新系列产品的铺开,也会迎来新一轮的服务器产品更新和业务迁移。
至强E3、E5和E7分别针对不同用户和市场推出。至强E3主打低功耗入门级服务器市场,而E7则主攻高性能计算和面向关键业务应用。至强E5,一方面可以比肩面向关键业务应用的E7产品,加速推进八路服务器市场部署和相关应用;另一方面,它可以通过较低的成本面向不满足于至强E3需求的中小企业和中低端客户,在提供更强大性能的同时实现低功耗,实现高效益和更高投资回报率。