朋友,赛扬300A稳超450给你带来的惊喜或许你不会忘?巴顿2500+稳超3200+的兴奋或许你还记忆犹新。在这一切的背后,我们可以看到处理器制程工艺的演变及架构的升级。从世界上第一台个人电脑5150的诞生,到我们家庭使用的多核处理器,都离不开处理器技术的更新、发展。从10微米到65纳米,前前后后经历了35年,在这35年里先后演变了13种制程。作为一款优秀的处理器不仅要有着好的架构,大容量的缓存,更要有先进的制程工艺。制程作为处理器发展一个决定因素,见证了处理器发展史上的起伏与波荡。现在我们即将步入到45纳米制程的时代。在这时代到来之前,你知道从23000个如何演变到5.8亿个晶体管的吗?对于新一代的45纳米技术在制程方面又有哪些优势?在下面的文章中,将做详细介绍。
赛扬300A
纳米工艺演变历史
1971年,英特尔第一颗10微米制程4004处理器诞生了,4004集成了2250个晶体管,可处理4位数据,每秒运算6万次,频率108KHz,成本低于100美元。
1972年4月的8008是4004的继任者,延续了10微米制程工艺。一如其名,8008的处理能力也是4004的两倍,比如可处理8位数据、频率2MHz,而集成晶体管的数量达到3500。
1976年3月,英特尔发布了Intel 8085处理器,这款处理器主频达到了5MHz,采用了3微米制程技术,包含了6500个晶体管。
1978年6月9日,Intel发布了首颗x86芯片,5MHz的8086。一年后8088处理器相继问世,依然采用3微米制程技术,但是集成了29000个晶体管。
1982年,英特尔80286微处理器推出,它使用了13400个晶体管,运行频率分别为6MHz、8MHz、10MHz和12.5MHz,采用了1.5微米制程技术。
1985年,32bit的英特尔386微处理器问世,包括27.5万个晶体管,也是1.5微米制程技术,并且结束了以80开头的命名方式。
1989年4月,英特尔发布了Intel 486DX处理器,这款处理器采用了1微米制程技术,所包含的晶体管数量达到了118万个。
1993年3月,采用了英特尔0.8微米制程技术的Pentium处理器问世,包含有310万个晶体管。
1995年11月,英特尔发布的Pentium Pro处理器的晶体管数量升至550万个,相继采用了0.6微米和0.35微米制程技术。1997年1月面世的Pentium MMX处理器集成度将到了450万,开始稳定的使用0.35微米制程技术。第一代的Pentium II处理器(代号Klamath)也沿用了0.35微米制程技术,包含的晶体管数量超过了750万个。
1998年4月,代号为Deschutes第二代Pentium II处理器和Pentium II Xeon处理器发布,它们均采用了0.25微米制程,后者包含了750万个晶体管。
1999年,英特尔发布的Pentium III处理器和Pentium III Xeon处理器也采用了该制程技术,由950万个晶体管组成。随着工艺的发展,后期的Pentium III处理器开始启用0.18微米制程技术。
2000年11月,起始主频为1.5GHz的Pentium 4处理器也采用了0.18微米制程技术,其所包含的晶体管数量达到了4200万个。2001年5月,英特尔还推出了Pentium 4 Xeon和Itanium处理器,也均为0.18微米制程技术。
2002年1月,英特尔推出采用了0.13微米制程的Pentium 4处理器(代号Northwood)。2003年3月12日,英特尔发布迅驰移动技术平台,其中包括了英特尔最新的移动处理器Pentium M,该处理器采用了0.13微米制程,包含7700万个晶体管。
2002年8月13日,英特尔宣布与90nm制程相关的若干技术取得突破,包括高性能低功耗晶体管、应变硅、高速铜连接和新兴低K介质材料,这是业界在生产中首次使用应变硅。2005年,英特尔将90nm制程技术应用于代号为Prescott的Pentium 4处理器和双核处理器Pentium D上,后者包含了2.3亿个晶体管。2006年7月18日,英特尔双核安腾2处理器发布,集成了17.2亿个晶体管,同样采用了90nm制程技术生产。
2006年7月27日,英特尔发布酷睿2双核处理器,该处理器包括2.9亿个晶体管,采用了65nm制程技术生产。2007年1月8日,英特尔发布了用于桌面电脑的65nm酷睿2四核处理器和用于服务器的四核处理器,晶体管数量达到了5.8亿个。
晶体管发热和电流漏电现象是阻碍晶体管变小的一个重要原因,因此,新一代Penryn处理器家族将采用全新材料制作的45nm晶体管绝缘层(insulating wall)和开关闸极 (switching gate),减低晶体管漏电(electrical leakage)情况。
为能达到大幅降低漏电情形且可同时提升效能目标,Intel采用被称为High-k的新材料制作晶体管闸极电介质(transistor gate dielectric),而晶体管闸极的电极 (transistor gate electrode)也将搭配采用全新金属材料组合,增加驱动电流20%以上,不仅提升晶体管效能,同时源极 - 汲极 (source-drain) 漏电也可减少逾5倍,明显改善晶体管耗电量。
据了解,由于二氧化硅具有易制性 (manufacturability),且能减少厚度以持续改善晶体管效能,因此过去40余年来,业者主要均采用二氧化硅做为制作闸极电介质的材料。
虽然Intel于导入65纳米制程时,已全力将二氧化硅闸极电介质厚度降低至1.2纳米,相当于5层原子,但由于晶体管缩至原子大小的尺寸时,耗电和散热亦会同时增加,产生电流浪费和不必要的热能,因此若继续采用目前材料,进一步减少厚度,闸极电介质的漏电情况势将会明显攀升,令缩小晶体管技术遭遇极限。
为解决此关键问题,Intel正规划改用较厚的High-k材料(铪hafnium元素为基础的物质)作为闸极电介质,取代沿用至今已超过40年的二氧化硅,此举也成功令漏电量降低10倍以上。
由于High-k闸极电介质和现有硅闸极并不兼容,Intel全新45纳米晶体管设计也必须开发新金属闸极材料,目前新金属的细节仍属商业机密,Intel现阶段尚未说明其金属材料的组合。
另与上一代技术相较,Intel的45奈制程令晶体管密度提升近2倍,得以增加处理器的晶体管总数或缩小处理器体积,令产品较对手更具竞争力,此外,晶体管开关动作所需电力更低,耗电量减少近30%,内部连接线 (interconnects) 采用铜线搭配 low-k电介质,顺利提升效能并降低耗电量,开关动作速度约加快 20%。
值得注意的是,Intel成功令新一代 45 纳米制程产品的漏电情况降低逾5倍,其中晶体管闸极氧化物漏电量更降低超过10倍,相较上代65纳米制程产品,在同一功耗表现下,频率下可提升约20%,或是在同一频率下功耗更低,电池续航力也明显大幅提升。
另一方面,Intel使用创新设计法则和先进光罩技术,将193纳米干式微影技术 (dry lithography) 延伸应用在45纳米处理器上,全力发挥成本优势和高易制性。
近几年来,铅污染现象越来越严重,由于铅具备适当的电气和机械特性,因此广泛应用在电子零组件等产品中。在欧洲已经针对这种情况制定出Rosh标准,符合这一标准的产品才可以在欧洲地区销售。
在英特尔方面,他们也在全力寻找能满足效能和可靠性需求的铅替代材料,自2002年开始,Intel推出了第一个采无铅方式制造的无铅闪存产品,自2004年起,英特尔出货产品含铅量已较前一代微处理器和芯片组封装大幅减少95%。
新一代45nm制程处理器将采用无铅设计,在今后Intel处理器产品中将全部采用100%无铅设计,以适应全球环境发展问题。其中,包括PGA、BGA和LGA等方式,Intel已确定45nmHi-k技术均将100%使用无铅设计,另外2008年采用65nm制程生产的芯片组产品亦会全面改采100%无铅技术。
处理器封装都需要焊接,内部连接点(interconnect)第一层内之5% (约 0.02公克)的含铅焊锡(lead solder),焊点用来连接硅晶粒和封装基板,英特尔将以锡、银、铜合金 (tin/silver/copper alloy) 取代以铅/锡为主的焊锡。由于 Intel 先进硅晶技术含有复杂的连接结构,必须投入大量的工程资源,才能使 Intel 处理器封装完全不使用铅,并推动整合新的焊锡合金系统。
现在,Intel 计划以3座晶圆厂生产45nm产品,位于美国奥勒岗洲 (Oregon, USA)的D1D晶圆厂及美国亚利桑那洲 (Arizona, USA)的Fab32晶圆厂,将率先于2007年下半年导入45nm制程,而以色列(Israel)的Fab 28则预定于2008年上半年投入45nm生产行列。
据了解,SSE4将分为4.1版本及4.2版本,4.1版本将会首次出现于Penryn处理器中,共新增47条指令,主要针对向量绘图运算、3D游戏加速、视像编码加速及协同处理加速动作,包括:
Penryn SSE4 Instruction summary | ||
Instruction Category |
Instructions |
Benefits |
Packed DWORD Multiplies |
PMULLD, PMULDQ |
提升编译器矢量运算效能 |
Floating Point Dot Product |
DPPS, DPPD |
3D立体制作及游戏,支持CG及HLSL等语言 |
Multi-packed sum of absolute diffs& min pos |
MPSADBW, PHMINPOSUW |
视频编码处理 |
Streaming Load |
MOVNTDQA |
视频编码处理、绘图及GPU数据分享 |
Floating Point Round |
ROUNDPS, ROUNDSS, ROUNDPD, ROUNDSD |
视频编码处理 、绘图、影音处理、2D/3D应用、多媒体及游戏等 |
Packed Blending |
BLENDPS, BLENDPD, BLENDVPS, BLENDVPD, PBLENDVB, PBLENDDW |
编译器矢量运算及影音处理、多媒体、游戏等应用 |
Packed Integer Min and Max |
PMINSB, PMAXSB, PMINUW, PMAXUW, PMINUD, PMAXUD, PMINDS, PMAXSD | |
Register Insertion/Extraction |
INSERTPS, PINSRB, PINSRD, PINSRQ, EXTRACTPS, PEXTRB, PEXTRD, PEXTRW, PEXTRQ | |
Packed Format Conversion |
PMOVSXBW, PMOVZXBW, PMOVSXBD, PMOVZXBD, PMOVSXBQ, PMOVZXBQ, PMOVSXWD, PMOVZXWD, PMOVSXWQ, PMOVZXWQ, PMOVSXDQ, PMOVZXDQ | |
Packed Test & Set |
PTEST | |
Packed Compare for Equal |
PCMPEQQ | |
Pack DWORD to Unsigned WORD |
PACKUSDW |
SSE4 :向量、浮点运算专门化 加入串流式负载指令
据Intel指出,在应用SSE4指令集后,Penryn增加了2个不同的32Bit向量整数乘法运算支持,引入了8 位无符号 (Unsigned)最小值及最大值运算,以及16Bit 及32Bit 有符号 (Signed) 及无符号运算,并有效地改善编译器效率及提高向量化整数及单精度代码的运算能力。同时,SSE4 改良插入、提取、寻找、离散、跨步负载及存储等动作,令向量运算进一步专门化。
SSE4加入了6条浮点型点积运算指令,支持单精度、双精度浮点运算及浮点产生操作,且IEEE 754指令 (Nearest, -Inf, +Inf, and Truncate) 可立即转换其路径模式,大大减少延误,这些改变将对游戏及 3D 内容制作应用有重要意义。
SSE4指令集进一步强讯编码效果,例如可同时处理8个4-byte宽度的SAD(Sums of Absolute Differences)运算,常用于新一代高清影像编码如VC.1及H.264等规格中,令视频编码速度进一步提升。
此外,SSE4加入串流式负载指令,可提高以图形帧缓冲区的读取数据频宽,理论上可获取完整的快取缓存行,即每次读取64Bit而非8Bit,并可保持在临时缓冲区内,让指令最多可带来8倍的读取频宽效能提升,对于视讯处理、成像以及图形处理器与中央处理器之间的共享数据应用,有着明显的效能提升。
除了采用更先进的45奈米制程及加入全新 SSE4 指令集外,Penryn 亦基于Intel Core微架构设计作出多项改良,称为「Enhanced Intel Core Microarchitecture」,并加入了:
Fast Radix-16 Divider(快速 Radix-16 除法器)
Super Shuffle Engine(超级洗牌引擎)
Split Load Cache Enhancement(增强型缓存拆分负载)
Improved Store Forwarding(存储转发)
Faster OS Primitive Support(高速操作系统同步原始支持)
Virtualization Performance Improvements (增强的Intel 虚拟化技术)
Deep Power Down Technology(深度节能技术)
Enhanced Dynamic Acceleration Technology(增强型动态加速技术)
Enhanced Core MA :Fast Radix-16 Divider
Intel在Core微架构中支持每个周期可处理多达4个指令(对比旧有处理器最多只能同时处理3个指令),且重新采用较高效率的14层Pipeline Stages,为提升分支预测的能力及准确性,Branch Predictor的Bandwitdh提升至20Byte (K8、Banias 为16B,Netburst为4B),令指令执行效率大大提高。
此外,Core微架构更加入Macro-Fusion技术,可把部份指令组合成单一Micro-Op 指令,令特定情况下每个周期可执行5个指令,更保留Micro-op Fusion技术,把相同的Macro-ops混合成单一个Micro-ops 透过Out-of-order逻辑可减少10% 的Micro-op指令执行数,除提升核心的执行效率,同时也保持高能源效益。
Penryn处理器除沿袭Core微架构的优点外,并进一步改良除法器的设计,在科学计算、三维坐标转换和其它数学运算密集型功能中,其带来约2倍的除法器速度,所包含的新一代的快速除法技术称为 Radix-16,可加速浮点和整数的除法运算速度。
据了解,基数为4的算法会在每次迭代运算中计算其2位的商值,当提高到基数为16的算法时,则允许在每次迭代中计算4位的商值,进而使延迟缩减一半。
Enhanced Core MA :Super Shuffle Engine
Intel在 Core微架构中加入128Bit-SIMD interger arithmetic及128bit SIMD双倍精准度Floating-Point Operations单元。旧有的处理器执行128Bit的SSE、SSE2及SSE3指令时,需要把指令分拆为2个64Bit指令,在2个频率周期完成,但Core微架构则只需要1个频率周期便能完成,执行效率提升达1倍,现时SSE指令集已普遍使用于主流软件中,包括绘图、影像、音效、加密、数学运算等用途,单周期128Bit处理器能力利用频率以外的方法提升效能。
另一方面,Penryn处理器也有显著改良,其加入全新Super Shuffle Engine,令SSE 指令运算更具效率,以往处理Unpacking、Packing、Align Concatenated Sources、Wide Shifts、Insertion及Horizontal Arithmetic Functions Setup等128Bit宽度的字节、字及Dword SSE数据时,均无法在单一周期内完成,但Super Shuffle Engine设计除可让这些不同性质的128Bit SSE指令,在1个周期内便可完成,减低延迟及吞吐量外,更不用在软件端中作出改良即可实现。
Enhanced Core MA :Split Load Cache Enhancement
Intel Core微架构明显强化处理器的Cache架构,传统的双核心设计中,每个独立的核心都有自己的L2 Cache,但Intel Core微架构则是透过核心内部的Shared Bus Router共享相同的L2 Cache,当CPU 1运算完毕后把结果存在L2 Cache时, CPU 0便可透过Shared Bus Router读取CPU 1放在共享L2 Cache上的数据,大幅减低读取上的延迟并减少使用 FSB 频宽。同时加入L2 & DCU Data Pre-fetchers及Deeper Write output缓冲存储器,大幅增加Cach 的命中率。
Shared Bus Router 除更有效处理L2 Cache读取外,亦为双核心使用FSB传输进行排程,新加入的Bandwidth Adaptation机制改善了双核心共享FSB时的效率,减少不必要的延迟。
Penryn处理器的L2 Cach 容量增加了50%,双核心产品L2 Cach 容量最大可达至6MB、四核心更可高达12MB,并提升至24路联合(24-way set Associative) ,令L2 Cache命中率进一步提升,并大幅度提升使用率。
此外,亦加入全新增强高速缓存行拆分负载功能(Split Load Cache Enhancement),当读取数值时,若数据位于2个不同的高速缓存中,则会对负载行进行拆分。即便单个高速缓存行中的数据未经过适当调整,而自单个高速缓存行中读取数据,亦较自2个高速缓存行中读取数据快上数倍。
Enhanced Core MA :Improved Store Forwarding
据了解,Penryn能在通过其它负载或存储之前作出推测,并快速分派两部份拆分负载,大大提高读取性能,可拉升执行数据扫描的应用程序的效率,例如视讯动态评估等工作。
Intel Core微架构加入了Memory Disambiguation设计,透过Out of Order过程分析内存读取次序,分析数据是否独立读取执行,如果与前面的数据存取动作并无关系,可令其提早执行,降低处理器的等候时间,减少闲置及延迟值。
另外,也进一步改内存系统效能,加速超过8bit的地址边界、令处于管线中的杂乱存储结果的读取速度,可立即向负载中的数据转发存储结果,且毋须等待存储完成再写入内存内。
Enhanced Core MA :Faster OS Primitive Support
在启动某一个关键代码段、并要以独占的方式访问某一个资源时(例如系列内的 I/O设备) ,某些操作系统会临时阻止或屏敝中断,因此Penryn加入高速操作系统同步原始支持(Faster OS Primitive Support),能更快速清除中断、设置中断功能 (CLI/STI),迅速进入及退出此一模式,进而显著提高执行此类代码段的性能。
Penryn处理器可以更快速地执行锁定的指令,例如XCHG、ADD/XADD/NEG/BTS/AND及CMPXCHG,且可更快速访问时间戳数器 (RDTSC),以上这些功能常用于数据库或事务处理的服务器。
Enhanced Core MA :Virtualization Performance Improvements
Penryn处理器在VT (Virtualization Technology)技术上进行显著改良,其支持EPT 延伸分页,并改良VT-x指令对虚拟主机转换、进入及退出的速度,平均可提升25%至75%,且只需要通过微架构上的改良,不用更改任何虚拟主机软件设计。
Enhanced Core MA :Deep Power Down Technology
Penryn行动处理器加入全新高级电源管理状态(C-Status ,可显著降低闲置期间处理器的功耗,并有效防止晶体管漏电情况。
而此最新的处理器睡眠状态称为C-6 (Deep Power Down),处理器可实时清除L1 Cache内所有数据,在保存处理器微架构状态下,关掉内核(Core Clock 与 PPL 将停止 )及L2 Cache,虽然芯片组会继续为I/O提供内存交换动作,但却不会唤醒处理器。
只有需要内核时,电压才会攀升,Core Clock与 PPL 会打开,处理器将进行重置,把Cache数据从内存中回传,微架构状态将完全恢复,并继续执行指令。
据Intel指出,C6 (Deep Power Down)模式将会是DC4 (Enhanced Deeper Sleep)模式,电压再降低一半,且L 1 C ache也会进入关闭状态,处理器功耗更进一步减少逾75%,但返回活跃状态所需时间则比DC4多出约50%。
由于C-Status越深,进入该状态和返回活跃状态的能源损耗也会越高,时间亦较长,过于频繁地切换至深度C-Status会造成更大的能耗,因此,新一代Penryn处理器加入自身降级功能,该功能采用智能试探法,可确定闲置期间的节省,能否补偿关闭处理器后再重新恢复所需要的能耗成本。
如果不能,处理器只会被置于C4模式,这是一个深度较浅的C-Status电源管理状态,结果会产生可能与DC4或C6模式的能耗节省,但在返回活跃状态的时间将大大减少。
晶体管密度提升了2倍,从而使芯片体积更小,Conroe有5.8亿个晶体管,核心面积是143平方毫米。Penryn有8.2亿个晶体管,核心面积是107平方毫米,在晶体管数量方面是前者的2倍。
在主频方面,基于65nm制程技术的四核Xeon处理器的主频最高才3GHz,而基于45nm制程技术的处理器的最高主频已经有了3.3GHz的工程样品,由此可见工艺的提升对产品主频的提升。
在缓存方面,65纳米的Conroe最高缓存可以达到8MB,45纳米的Penryn最高缓存可以达到12MB。
以上这些优势都是我们可以从技术参数上简单看出,然而45纳米的Penryn Xeon处理器的推出不仅仅是提升了技术指标,用户可以仅更换CPU来升级整个的平台,从而降低投资成本,另外我们再往长远一点看就是数据中心。目前服务器都是采用风冷的散热方式来降低热量,风冷散热的特点就是成本低、易于维护,而我们知道数据中心的服务器不仅仅是一台,随着越来越多的服务器架设到数据中心后,为了保证服务器的稳定,数据中心的冷却系统就要开始工作,现在数据中心与日俱增的能源开销倍受人们地关注,在过去十年中服务器供电费用花费翻番的同时,冷却系统也为数据中心的基础设施建设带来了空前的压力。我们相信得益于基于铪的高-K金属栅极技术,当基于45纳米的Penryn至强处理器大量部署到数据中心之后,整个数据中心的能耗会得到明显改观,届时我们的世界会更环保。