业界对于高性能计算未来是否会与云计算融合,或者高性能计算应用负载是否会迁移到云计算平台的探讨早已开始。但很多的高性能计算用户对于打造高性能云的设想却一直存有疑虑,其原因就在于云计算平台虽然扩展更为方便,管理更为简单,资源分配更为灵活,但用于实现这些优势的基石——虚拟化技术,却不免会带来额外的性能开销,并可能形成新的性能瓶颈,这对于渴求更高性能,并将这些性能全部用于加速自身高性能应用负载执行效率的用户来说,是难以接受的。
然而,有助于推进平衡计算理念和实践的英特尔至强E5平台却在这个阻隔高性能计算与云计算的障碍上打开了一个缺口,带来了一个契机——得益于更强的计算性能、更强的系统内部及对外I/O能力,对于万兆位以太网的支持以及在硬件辅助虚拟化技术上的革新和升级,基于至强处理器E5产品家族的服务器系统已能够显著降低虚拟化技术产生的性能开销,例如整个数据中心或某个集群系统实现网络的虚拟化后,对其网络带宽和延迟带来的不利影响。
来自美国国家航空航天局(NASA)的“试验”就见证了这一趋势的可行性。它针对传统高性能计算集群系统实现扩展时面临的复杂性和成本过高,以及在作业安排上不够灵活的问题,专门推进了名为Nebula的,基于云的基础设施即服务(IaaS)环境,来寻求源于云计算技术的解决方案。这个环境的核心技术基石,就是英特尔架构服务器、万兆位以太网技术以及OpenStack开源软件项目。
英特尔积极参与了这个项目,与NASA的性能工程师密切配合,致力于充分发挥英特尔架构平台上的虚拟化技术的性能潜力,以验证架构在云上、基于虚拟化环境的高性能计算系统与传统“裸机”形态(即非虚拟化)的高性能计算系统相比,是否会产生性能开销或其他干扰性能的因素。而测试的结果则表明,在英特尔架构平台所提供的单根I/O虚拟化技术和所支持的万兆位以太网技术的助力下,Nebula环境在MPI性能基准测试中给出的网络传输吞吐率和延迟测试成绩,已经超过了“裸机”方案。这初步证明高性能计算应用走向开放架构的云计算平台或环境是可行的,虽然还有一些技术问题有待解决,但采纳应用平衡的计算平台,无疑将是此后相关验证或尝试工作继续前行的重要支柱。
英特尔集成众核架构及英特尔至强融核产品线预览
2012年6月18日,英特尔公司正式宣布未来所有基于英特尔集成众核架构(英特尔MIC 架构)的产品将采用全新品牌——英特尔至强融核。第一代英特尔至强融核产品家族(代号为“ Knights Corner”的协处理器)将于 2012 年年底推出,届时它将成为英特尔至强处理器 E5-2600/4600 产品家族的重要补充,并为高度并行的工作负载带来全新性能。其第一代产品将主要用于高性能计算( HPC)市场,而未来的英特尔至强融核产品还将满足企业数据中心和工作站的需求。
英特尔至强融核协处理器
英特尔至强融核协处理器的主要优势在于具备出色的易用性,能够充分利用在英特尔架构上使用的常见编程模式、技术和开发者工具。由于它能够更充分地利用并行 CPU 代码,软件公司和 IT 部门将无需重新为其开发人员提供与加速器有关的专用编程模型的培训。
除了兼容 x86 编程模式外,英特尔至强融核协处理器还能够适用于专为高性能计算优化且高度并行的独立计算节点。它可以独立于主机操作系统来运行自己的基于Linux的操作系统。这一特性将可以为实施无法采用其它 GPU 技术的集群解决方案带来更大的灵活性。
英特尔至强融核协处理器将采用创新的22 纳米 3-D 三栅极晶体管制程技术,可在 PCI-e 插卡形态下集成超过 50 颗内核和支持最低 8GB容量的GDDR5 内存。此外,它还具备支持512b SIMD 指令的特点,可在单个指令控制下同时处理多个数据元素,从而能显著提升性能。在去年使用 DGEMM 进行的协处理器现场演示中,英特尔进行了使用单颗“ Knights Corner”协处理器提供超过 1 TeraFLOPs(每秒 1 万亿次浮点计算)双精度实际性能的展示。而在 2012 年国际超级计算大会上,英特尔使用行业基准测试工具Linpack (Rmax) 1展示了同样超过 1 TeraFLOPs 的卓越性能。相比之下,在 1997 年,ASCII RED* 高性能计算机采用超过 9,000 颗英特尔奔腾处理器才突破 了1 TeraFLOPs 性能大关。
虽然英特尔至强融核协处理器计划于 2012 年下半年推出,但英特尔宣布首个基于英特尔至强融核协处理器的集群已经投入使用,并在2012年6月发布的最新的第39届全球高性能计算机500 强排行榜上位列第150位,具备了每秒118万亿次浮点计算的卓越性能。
英特尔至强融核协处理器已获得了广泛的行业支持,包括 Bull、Cray、戴尔、惠普、IBM、浪潮和NEC 在内的44家制造商已承诺将推出采用该款协处理器的系统。
英特尔软件工具助力真实应用负载性能调优
不论是旨在推进平衡计算的至强处理器E5,还是专为高度并行化应用负载开发的至强融核新品,其性能的充分发掘和释放都离不开英特尔一系列软件开发与优化工具的支持,这些工具,也是英特尔在高性能计算市场上强大竞争力的重要组成部分。
这些工具包括了VTune性能分析器、英特尔编译器(Intel Compilers)、Intel Thread Checker、Intel Performance Libraries、Intel Threading Tools、Intel Cluster Tools等,它们可以帮助高性能计算应用软件开发商或最终用户分析自己的高性能计算系统及应用软件特性,并最大限度优化其高性能计算机软硬件系统,发掘其最大性能潜力。世界领先的石油服务公司斯伦贝谢(Schlumberger)技术服务副总裁Jim Brady指出,“通过与英特尔的紧密合作和其行业领先的软件使用工具,我们很好地优化了我们的软件的扩展能力的性能。因此,我们的石油和天然气客户可以更好地理解液体流动和地质因素,更迅速,更确性,高效地推动能源勘探的发展。”
以这些工具为基础,英特尔公司还推出了“真实应用负载计划”,来帮助用户针对其真实的应用负载,而非通用的基准测试软件来进行调优,从而帮助他们从自己的系统上获取最大化的收益。截止目前,英特尔中国高性能计算团队已经和一些国内用户合作优化和测试了一系列真实应用负责,包括复旦大学(VASP应用),中国海洋大学(WRF-ROMS应用),中科院生物物理所(EMAN,I3和NAMD应用),上海交通大学(KLAPS和CFD程序)等。目前该团队还提供了由16个节点至强E5服务器构成的,用于真实应用负载测试的基准集群环境。