智能计算的热潮席卷了千行百业,背后则是对计算、网络和存储能力的巨大挑战。从ChatGPT到多模态AI,再到前不久的Sora,人们似乎看到了人工智能的无所不能,不过与此同时,应用场景的需求越来越复杂,仅靠暴力计算并非长久之计。“在大模型的深入落地的过程中,我们看到了复杂的客户需求不断涌现,涉及到算法、算力、数据三个维度,算效、精度和服务等方面远远没有满足客户的需求。”在2024宁畅战略新品及方案发布会上,宁畅总裁秦晓宁表示,“宁畅将通过‘全局智算’战略,以系统的全面性来对抗需求的复杂性,在复杂的需求面前,宁畅将以全方位的AI计算方案支持大模型发展的全生命周期,解决大模型落地的问题。”
定制化专家、冷静计算、全局智算,宁畅一路走来的战略方向都是经过深思熟虑的,顺应了彼时的市场趋势,并且过后来看都具有一定的前瞻性。在秦晓宁看来,大模型的发展经历了“堆硬件”的阶段,现在从参数竞赛走向了商业化、产业化的落地阶段,需要的是支撑能力的体系升级,涉及人工智能的硬件层、集群层、中台层、内容层、服务层等等。要知道,OpenAI在训练GPT4时的算力利用率约为35%,这意味着较大的资源浪费。要想充分利用算力效能,“算、网、存、管”缺一不可。
在行业端,企业对模型精度的要求越来越高,满足起来并不容易。例如,行业数据会涉及很多敏感信息,要考虑安全合规性,还要做好数据的清洗、标注、治理等工作,保障数据的时效性和有效性,还要有软硬件工具的支持和优化。在大模型部署阶段,训练和推理的数据要实时对接,还要做好模型的精简、蒸馏、压缩等等,之后要做到敏捷部署,以及稳定运行,又需要对这些资源进行实时的监控和管理……这些流程慢慢成为企业应用AI的阻碍。
对此,宁畅提出了“全局智算”战略,具备六大特性,涵盖软硬件全体系及全液冷产品,提供咨询、测试、运维、售后的全流程服务,满足全行业用户大模型开发、适配、部署的全场景需求,并按用户发展阶段,定制专业且性价比高的AI计算方案。具体来说,底层是AI硬件资源层,包括各类算力服务器、高速存储、高速互联等产品;向上AI集群设计层,从微架构层面分析AI集群网络和存储架构分析优化,以及AI模型的特征分析;之上是AI算子优化层,包括基础算子深度优化、AI基础运行时支撑优化、系统工程优化等,减少模型执行时间,降低资源消耗,提高能效比;再上层是AI中台层,全面支持NVAIE AI平台(NVIDIA)和宁畅自己的NEX AIOM,可以提供基于AI算力系统深度整合的工作栈;向上是AI业务层,包括全面的性能分析、大模型并行优化和模型开发等;顶层是AI场景层,包括数字金融、智能驾驶、智能制造、智慧科研、生物医疗、智慧通信、智慧政务等。
至于六大特性,可归纳为六个“全”——分别是全体系、全液冷、全服务、全场景、全行业、全阶段。例如,全体系会支持通用、AI、边缘计算、整机柜、 AI工作站、AI算力栈等硬件,以及软件、平台、应用、开发工具支持与适配,全液冷会覆盖服务器、机柜、数据中心多形态,支持风冷、冷板式液冷、浸没式液冷等方式。其中,宁畅W350G50工作站可以支持AI所需强劲算力在桌面端实现,边缘服务器E420G50可以在特定环境中提供更低延迟的服务,搭载英特尔®至强®可扩展处理器的高密度服务器可以满足严苛的算力需求,整机柜液冷服务器将升级为无风扇设计。宁畅B8000液冷整机柜服务器作为AI算力栈颇具亮点的交付形态,采用电、液、网三路全盲插设计,部署周期相较传统方式提升30倍。
宁畅总裁秦晓宁
以某家车企为例,宁畅会帮助其在算力系统搭建时实现千个节点的互联方案,配备了液冷整机柜,实现了电液盲插,易运维,敏捷部署。软件层面,针对自动驾驶的特定算法、模型的软件栈提供了优化的深度学习框架和加速库,包括预训练模型、模型压缩、加速技术,以及针对车辆硬件平台优化的深度学习库。在AI软件栈中,包含模拟和测试工具,支持虚拟环境的创建、测试执行等,可以辅助提升驾驶系统的安全性,并且可以为车企的大量数据进行预处理、自动标注等操作,提升数据利用效率,加速模型训练。
“全液冷是必然会实现的事情。预计到2026年,液冷技术在数据中心渗透率会达到30%。因为到那个时候,新量产的GPU系统的单机功耗会到20千瓦,单卡功耗会到1000瓦以上,传统技术无法突破,必须通过涨功耗同时搭配液冷散热的形式,让算力进一步提升。除此之外,电力供应也是一个重要的影响因素。”宁畅CTO赵雷说。无论是风液混合还是全液冷方案,宁畅都可以根据客户的预算和部署要求来定制。
软件方面,宁畅观察到了计算能力分析、网络优化升级、应用热点选择的需求痛点,认为会有越来越多的场景需要软件能力,进一步提升AI的运算能力和产品使用率,包括基础算子优化能力、AI基础运行时支撑优化能力、系统工程优化能力、基于模型性能优化能力。例如,优化硬件资源让处理器指令高效调用,利用NEX AIOM搭配用户资源Bring spare框架,实现基于图像的检测模式,以及推理和智能检测,通过模型数据清洗大幅提升结果精度。
宁畅CTO赵雷
结合在AI计算领域的软硬件能力,宁畅还推出了“AI算力栈” ,旨在有效解决大模型产业落地的全周期问题。据了解,国内首个AI算力栈——NEX AI Lab(Nettrix AI Open Lab)已在桐乡市成功落地。NEX AI Lab集成加速计算节点、全闪存存储节点,采用了X640G50搭配GPU组成的系统,以及400G网络连接,同时可支持X680G55液冷服务器。其中,该算力栈可以为GPT、LLaMA、Stable Diffusion等AI模型,提供多元场景应用优化支持。目前,NEX AI Lab已开放预约试用,以支持用户体验大模型、数据科学、推荐系统等领域的解决方案工作流。
宁畅开放首个AI算力栈“NEX AI Lab”
可以说,无论客户想要的是标准化方案还是定制化方案,宁畅都可以满足其需求。例如,互联网企业很了解技术,宁畅会直接按需提供设备服务,一些传统IDC的客户和跨行业的企业,则需要专门的方案设计服务,以实现AI能力的部署和交付,此时,就要涉及到上架实施、节点调用、机房供电、运维管理、网络通信等问题,而这些正是宁畅全场景能力的体现。
经过四年多的发展,宁畅在传统服务器的销售额、AI服务器的销售额,以及液冷服务器的市场表现等方面均进入了行业前列。秉承着技术导向的理念,宁畅无疑将在AI时代走得更远。全局智算,是一个新的开始。“我们希望通过具备六大特性的能力矩阵,向上解决极致算效、精度增强、高效稳定的复杂问题,向下赋能千行百业,让大模型落地成为各行各业的新质生产力。”秦晓宁谈到,“当然,‘全局智算’也不是靠宁畅一己之力能实现的,需要产业各方的伙伴通力合作,优势互补,才能共谋智算未来的产业发展。”
本文属于原创文章,如若转载,请注明来源:全局智算 软硬兼备 共迎AI时代新机遇https://server.zol.com.cn/865/8650791.html