
NVIDIA 发布了开源推理软件 NVIDIA Dynamo,旨在以高效率、低成本加速并扩展 AI 工厂中的 AI 推理模型。
作为 NVIDIA Triton™ 推理服务器的后续产品,NVIDIA Dynamo 是一款全新的 AI 推理服务软件,旨在为部署推理 AI 模型的 AI 工厂最大化其 token 收益。
它协调并加速数千个 GPU 之间的推理通信,并使用分离服务将大语言模型 (LLM) 的处理阶段和生成阶段在不同 GPU 上分离开来。这使得每个阶段的特定需求可以进行单独优化,并确保更大程度地利用 GPU 资源。
在 GPU 数量相同的情况下,Dynamo 可将 NVIDIA Hopper™ 平台上运行 Llama 模型的 AI 工厂性能和收益翻倍。
在由 GB200 NVL72 机架组成的大型集群上运行 DeepSeek-R1 模型时,NVIDIA Dynamo 的智能推理优化也可将每个 GPU 生成的 token 数量提高 30 倍以上。
NVIDIA Dynamo 加入了一些功能,使其能够提高吞吐量的同时降低成本。它可以根据不断变化的请求数量和类型,动态添加、移除和重新分配 GPU,并精确定位大型集群中的特定 GPU,从而更大限度地减少响应计算和路由查询。
此外,它还可以将推理数据卸载到成本更低的显存和存储设备上,并在需要时快速检索这些数据,最大程度地降低推理成本。
NVIDIA Dynamo 完全开源并支持 PyTorch、SGLang、NVIDIA TensorRT™-LLM 和 vLLM,使企业、初创公司和研究人员能够开发和优化在分离推理时部署 AI 模型的方法。
NVIDIA Dynamo 包含四项关键创新,可降低推理服务成本并改善用户体验:
GPU 规划器 (GPU Planner):一种规划引擎,可动态地添加和移除 GPU,以适应不断变化的用户需求,从而避免 GPU 配置过度或不足。
智能路由器 (Smart Router):一个具备大语言模型 (LLM) 感知能力的路由器,它可以在大型 GPU 集群中引导请求的流向,从而最大程度减少因重复或重叠请求而导致的代价高昂的 GPU 重复计算,释放出 GPU 资源以响应新的请求。
低延迟通信库 (Low-Latency Communication Library):推理优化库,支持先进的 GPU 到 GPU 通信,并简化异构设备之间的复杂数据交换,从而加速数据传输。
显存管理器 (Memory Manager):一种可在不影响用户体验的情况下,以智能的方式在低成本显存和存储设备上卸载及重新加载推理数据的引擎。
NVIDIA Dynamo 将作为 NVIDIA NIM™ 微服务推出,并在未来版本中由 NVIDIA AI Enterprise 软件平台提供支持,具有生产级的安全性、支持和稳定性。
本文属于原创文章,如若转载,请注明来源:NVIDIA Dynamo开源库加速并扩展AI推理模型https://server.zol.com.cn/961/9617776.html