Penryn ：基于Core 微架构再作改良

绿色环保新趋势 45纳米与65纳米技术对比

CNET中国·ZOL 作者：中关村在线王智超【原创】 2007年11月15日 17:14 评论

　　除了采用更先进的45奈米制程及加入全新 SSE4 指令集外，Penryn 亦基于Intel Core微架构设计作出多项改良，称为「Enhanced Intel Core Microarchitecture」，并加入了：

    Fast Radix-16 Divider(快速 Radix-16 除法器)
    Super Shuffle Engine(超级洗牌引擎)
    Split Load Cache Enhancement(增强型缓存拆分负载)
    Improved Store Forwarding(存储转发)
    Faster OS Primitive Support(高速操作系统同步原始支持)
    Virtualization Performance Improvements (增强的Intel 虚拟化技术)
    Deep Power Down Technology(深度节能技术)
    Enhanced Dynamic Acceleration Technology(增强型动态加速技术)

Enhanced Core MA ：Fast Radix-16 Divider

45纳米与65纳米技术对比(未完成)

　　Intel在Core微架构中支持每个周期可处理多达4个指令(对比旧有处理器最多只能同时处理3个指令)，且重新采用较高效率的14层Pipeline Stages，为提升分支预测的能力及准确性，Branch Predictor的Bandwitdh提升至20Byte (K8、Banias 为16B，Netburst为4B)，令指令执行效率大大提高。

此外，Core微架构更加入Macro-Fusion技术，可把部份指令组合成单一Micro-Op 指令，令特定情况下每个周期可执行5个指令，更保留Micro-op Fusion技术，把相同的Macro-ops混合成单一个Micro-ops 透过Out-of-order逻辑可减少10% 的Micro-op指令执行数，除提升核心的执行效率，同时也保持高能源效益。

Penryn处理器除沿袭Core微架构的优点外，并进一步改良除法器的设计，在科学计算、三维坐标转换和其它数学运算密集型功能中，其带来约2倍的除法器速度，所包含的新一代的快速除法技术称为 Radix-16，可加速浮点和整数的除法运算速度。

据了解，基数为4的算法会在每次迭代运算中计算其2位的商值，当提高到基数为16的算法时，则允许在每次迭代中计算4位的商值，进而使延迟缩减一半。

Enhanced Core MA ：Super Shuffle Engine

　　Intel在 Core微架构中加入128Bit-SIMD interger arithmetic及128bit SIMD双倍精准度Floating-Point Operations单元。旧有的处理器执行128Bit的SSE、SSE2及SSE3指令时，需要把指令分拆为2个64Bit指令，在2个频率周期完成，但Core微架构则只需要1个频率周期便能完成，执行效率提升达1倍，现时SSE指令集已普遍使用于主流软件中，包括绘图、影像、音效、加密、数学运算等用途，单周期128Bit处理器能力利用频率以外的方法提升效能。

另一方面，Penryn处理器也有显著改良，其加入全新Super Shuffle Engine，令SSE 指令运算更具效率，以往处理Unpacking、Packing、Align Concatenated Sources、Wide Shifts、Insertion及Horizontal Arithmetic Functions Setup等128Bit宽度的字节、字及Dword SSE数据时，均无法在单一周期内完成，但Super Shuffle Engine设计除可让这些不同性质的128Bit SSE指令，在1个周期内便可完成，减低延迟及吞吐量外，更不用在软件端中作出改良即可实现。

Enhanced Core MA ：Split Load Cache Enhancement

Intel Core微架构明显强化处理器的Cache架构，传统的双核心设计中，每个独立的核心都有自己的L2 Cache，但Intel Core微架构则是透过核心内部的Shared Bus Router共享相同的L2 Cache，当CPU 1运算完毕后把结果存在L2 Cache时， CPU 0便可透过Shared Bus Router读取CPU 1放在共享L2 Cache上的数据，大幅减低读取上的延迟并减少使用 FSB 频宽。同时加入L2 & DCU Data Pre-fetchers及Deeper Write output缓冲存储器，大幅增加Cach 的命中率。

Shared Bus Router 除更有效处理L2 Cache读取外，亦为双核心使用FSB传输进行排程，新加入的Bandwidth Adaptation机制改善了双核心共享FSB时的效率，减少不必要的延迟。

Penryn处理器的L2 Cach 容量增加了50%，双核心产品L2 Cach 容量最大可达至6MB、四核心更可高达12MB，并提升至24路联合(24-way set Associative) ，令L2 Cache命中率进一步提升，并大幅度提升使用率。

此外，亦加入全新增强高速缓存行拆分负载功能(Split Load Cache Enhancement)，当读取数值时，若数据位于2个不同的高速缓存中，则会对负载行进行拆分。即便单个高速缓存行中的数据未经过适当调整，而自单个高速缓存行中读取数据，亦较自2个高速缓存行中读取数据快上数倍。

Enhanced Core MA ：Improved Store Forwarding

据了解，Penryn能在通过其它负载或存储之前作出推测，并快速分派两部份拆分负载，大大提高读取性能，可拉升执行数据扫描的应用程序的效率，例如视讯动态评估等工作。

Intel Core微架构加入了Memory Disambiguation设计，透过Out of Order过程分析内存读取次序，分析数据是否独立读取执行，如果与前面的数据存取动作并无关系，可令其提早执行，降低处理器的等候时间，减少闲置及延迟值。

另外，也进一步改内存系统效能，加速超过8bit的地址边界、令处于管线中的杂乱存储结果的读取速度，可立即向负载中的数据转发存储结果，且毋须等待存储完成再写入内存内。

Enhanced Core MA ：Faster OS Primitive Support

在启动某一个关键代码段、并要以独占的方式访问某一个资源时(例如系列内的 I/O设备) ，某些操作系统会临时阻止或屏敝中断，因此Penryn加入高速操作系统同步原始支持(Faster OS Primitive Support)，能更快速清除中断、设置中断功能 (CLI/STI)，迅速进入及退出此一模式，进而显著提高执行此类代码段的性能。

Penryn处理器可以更快速地执行锁定的指令，例如XCHG、ADD/XADD/NEG/BTS/AND及CMPXCHG，且可更快速访问时间戳数器 (RDTSC)，以上这些功能常用于数据库或事务处理的服务器。

Enhanced Core MA ：Virtualization Performance Improvements

　　Penryn处理器在VT (Virtualization Technology)技术上进行显著改良，其支持EPT 延伸分页，并改良VT-x指令对虚拟主机转换、进入及退出的速度，平均可提升25%至75%，且只需要通过微架构上的改良，不用更改任何虚拟主机软件设计。

Enhanced Core MA ：Deep Power Down Technology

　　Penryn行动处理器加入全新高级电源管理状态(C-Status ，可显著降低闲置期间处理器的功耗，并有效防止晶体管漏电情况。

而此最新的处理器睡眠状态称为C-6 (Deep Power Down)，处理器可实时清除L1 Cache内所有数据，在保存处理器微架构状态下，关掉内核(Core Clock 与 PPL 将停止 )及L2 Cache，虽然芯片组会继续为I/O提供内存交换动作，但却不会唤醒处理器。

只有需要内核时，电压才会攀升，Core Clock与 PPL 会打开，处理器将进行重置，把Cache数据从内存中回传，微架构状态将完全恢复，并继续执行指令。

据Intel指出，C6 (Deep Power Down)模式将会是DC4 (Enhanced Deeper Sleep)模式，电压再降低一半，且L 1 C ache也会进入关闭状态，处理器功耗更进一步减少逾75%，但返回活跃状态所需时间则比DC4多出约50%。

由于C-Status越深，进入该状态和返回活跃状态的能源损耗也会越高，时间亦较长，过于频繁地切换至深度C-Status会造成更大的能耗，因此，新一代Penryn处理器加入自身降级功能，该功能采用智能试探法，可确定闲置期间的节省，能否补偿关闭处理器后再重新恢复所需要的能耗成本。

如果不能，处理器只会被置于C4模式，这是一个深度较浅的C-Status电源管理状态，结果会产生可能与DC4或C6模式的能耗节省，但在返回活跃状态的时间将大大减少。

在本页阅读全文

本文导航

频道热词：LED照明工作站云计算

视觉焦点

精彩内容推荐

组图

推荐：12款超棒的乌班图 Linux GTK主题

查看更多服务器美图>>

服务器评测与技术热点

排行文章标题

算力猛兽浪潮NF5468A5 GPU服务器深度测评

TOP10周热门服务器排行榜

热门
新品
系列

戴尔 PowerEdge R730 机架
- 商家报价：￥12000
- ZOL评分：
- 4用户点评
[评测] 至强E5v4 戴尔旗舰PowerEdge R730评测
联想 System x3650 M5(546
- 商家报价：￥18500
- ZOL评分：
- 2用户点评
[评测] 重返荣耀联想System x3650 M5服务器评测
ThinkServer RD450（Xeon
- 商家报价：￥11500
- ZOL评分：
- 0用户点评
戴尔 PowerEdge R730XD 机
- 商家报价：￥31585
- ZOL评分：
- 1用户点评
戴尔 PowerEdge R730 机架
- 商家报价：￥27891
- ZOL评分：
- 4用户点评
[评测] 至强E5v4 戴尔旗舰PowerEdge R730评测
HP ProLiant DL388 Gen9(7
- 商家报价：￥17800
- ZOL评分：
- 2用户点评
戴尔 PowerEdge T630 塔式
- 商家报价：￥13842
- ZOL评分：
- 1用户点评
[评测] T630：我外观虽然像主机但远比它强大
华为 FusionServer RH2288
- 商家报价：￥10460
- ZOL评分：
- 1用户点评
[评测] E5 v3芯动力华为RH2288 V3服务器评测
戴尔 PowerEdge R730 机架
- 商家报价：￥41202
- ZOL评分：
- 4用户点评
[评测] 至强E5v4 戴尔旗舰PowerEdge R730评测
戴尔 PowerEdge R430 机架
- 商家报价：￥17000
- ZOL评分：
- 3用户点评

查看完整榜单>>

企业人物访谈

苹果发布会 AWE Chinajoy IFA mwc CES Asia CES