北京时间6月25日,由浪潮与OCP基金会联合举办的首届OCP开放计算中国日(OCP China Day)在北京圆满举行。OCP旨在以开源开放的方式,重构当前的数据中心硬件,发展面向下一代数据中心的服务器、存储、网络、基础设施等创新硬件。目前,OCP核心会员超过200家。
本次OCP China Day聚焦人工智能、边缘计算、Open Rack、OpenRMC、SDN等五大前沿技术话题,来自Facebook、LinkedIn、Intel、微软、百度、腾讯、阿里、诺基亚、中国移动、浪潮等资深技术专家分享了最新技术进展。此外,600㎡的展区展示着各类成熟的OCP产品和方案。
尽管OCP已成为全球最大的开放硬件社区,但千万别以为这一硬件社区对数据中心、对计算的贡献仅在硬件层面。算力的提升需要硬件支持,更离不开软件优化,这早已成为业界共识。其实,从本次大会OpenRMC、SONiC两个议题中也能看出,OCP对服务器、数据中心的软件层面也是相当关注。
全面云化下的数据中心需求
首先,我们都知道,云计算已成为企业IT重要组成部分。云计算的大规模应用也改变了企业的计算习惯,并对计算架构带来深远影响。因此,在系统层面,云计算的到来使得企业对数据中心有了进一步需求。
在笔者看来,应对全面云化,企业对数据中心的需求主要集中在三方面:
1.高性能低TCO:云计算、AI发展,对算力提出了更苛刻的需求,随着上云需求进一步增加以及AI应用,企业自然需要数据中心交出更多算力。而企业对数据中心算力提升的要求,一定是建立在同等TCO或更优TCO基础之上;
2.高可靠高安全:伴随着云计算承载业务的不断增加,企业希望数据中心的宕机概率尽可能低,即便系统发生宕机,也要尽可能缩短下线时间保证业务的持续性。同时,大数据、AI的发展使得数据从存储资料转为生产资料,如何保证公有云环境中,自家数据的隐私问题也愈发引起企业关注;
3.运维的简化与自动化:面对成千上万台服务器,面对本地云需求与远程边缘计算需求,系统硬件的快速配置、应用、远程更新,以及系统故障后,如何实现远程定位,远程调试,这些均成为企业的关注点。
针对全面云化环境下的这些需求,那么OCP China Day上,在服务器软件项目优化上,OCP成员英特尔、浪潮做了哪些工作呢?
英特尔对运行管理机制及启动时间的优化
在服务器整个系统中,存在着诸多运行管理平台,如处理运行管理、电源运行管理、网络运行管理等。
以处理运行管理平台为例,SMM是处理器特殊管理模式,它的执行会导致处理器和执行线程处于挂机状态,随着处理核数不断增加,SMM频繁进出使得系统性能进一步下降。
英特尔给出的方案是引入一个PRM平台运行机制,将过去运行在SMM模式状态下的系统运行服务移回到内核空间,避免对其他业务进程阻塞,降低对系统性能的影响。同时,为了保证跟操作系统无缝对接,该方案采用与SMM运行服务同样的ACPI接口。
在服务器启动优化上,通常而言,服务器系统的启动时间在几分钟或数十分钟,这一时间远满足不了企业对业务快速上线的需求。
对此,英特尔的解决方案是通过对处理器、内存等拓扑结构的记录,实现在系统重启时避免不必要的初始化操作,并利用处理器的多核能力,加速启动过程中内存的自解,达到缩短系统启动时间的目标。
浪潮对BMC及Redfish的优化
在监控服务器健康状态及带外管理服务上,BMC这一嵌入式管理单元的重要性不言而喻,而在全球主要服务器供应商之间,这一重要单元的BMC却是闭源的,且各家实现差异性较大,这便造成数据中心设备统一管理难题。
随着OpenBMC的提出,浪潮也在不断进行着对该开源软件项目的优化工作,推动OpenBMC的生态发展。具体而言,浪潮推动着服务器实现带外的在线升级,通过Web UI界面,在不占用服务器网络带宽的情况下借助软件包实现Firmware的刷新和维护工作,进一步提高管理安全性。
同时在故障诊断上,浪潮把标准服务器上的故障诊断软件和code基于Open BMC做移植和开放,使得整个社区其他软件固件均能识别,实现工作互通。
另一方面,IPMI为当前服务器管理的主要技术标准。其缺点在于功能较少,且对于其他扩展功能缺少统一的管理规范接口约束,只适用于中小规模的数据中心管理。而现代大规模数据中心平均几千台甚至上万台服务器才配置一名数据中心管理员,需要管理方案提供更多功能以及相应的接口。
与IPMI不同,Redfish技术标准扩展性好,功能丰富,针对不同供应商不同种类的基础设施提供了规范化易集成的管理接口。除服务器外,Redfish逐渐扩展对存储、网络方面的支持。浪潮也积极参与到这一下一代数据中心管理标准的建设中去,并实现了业内首款符合OCP Redfish Profile规范的OpenBMC版本。
对此,浪潮高级技术总监郭洪昌表示:“浪潮希望能够把这些方案分享给业界厂商和客户,实现整个生态系统的壮大。同时,将浪潮积累的资源、IP、理念,得到更好得复用,成为用户的成功案例或POC参考,实现正循环。”
本文属于原创文章,如若转载,请注明来源:推动数据中心变革 解读OCP China Day上的软件技术更新//server.zol.com.cn/720/7205128.html