人工智能时代,机器学习技术的快速发展使得我们能够构建出越来越强大的智能系统。然而,如何客观、准确地评估不同机器学习系统的性能一直是一个具有挑战性的任务,为此,MLCommons应运而生,作为一间成立于2018年的产业基准组织,MLCommons制定了机器学习性能的通用标准测试工具,用于帮助加速开发、创造更多样的AI产品。
近日,MLCommons公布针对60亿参数大语言模型及计算机视觉与自然语言处理模型GPT-J的MLPerf推理v3.1 性能基准测试结果,英伟达、英特尔、戴尔等厂商均有参与,其中英特尔提交了Habana Gaudi2加速器、第四代英特尔至强可扩展处理器,以及英特尔至强CPU Max系列的测试结果。从结果来看,英特尔在AI推理方面的整体实力相当可观,同时进一步加强了其对加速从云到网络到边缘再到端的工作负载中大规模部署AI的承诺。
英特尔执行副总裁兼数据中心与人工智能事业部总经理Sandra Rivera表示:“正如最新的 MLCommons结果显示,我们拥有强大的、具有竞争力的人工智能产品组合以满足客户对高性能、高效率的深度学习推理及训练的需求,同时,针对各种规模的人工智能模型,英特尔产品组合均具有领先的性价比优势。”
值得一提的是,根据6月披露的MLCommons AI训练结果和Hugging Face性能基准测试验证,Gaudi2在先进的视觉语言模型上,性能可以超越英伟达的H100处理器,此次的结果进一步证明了英特尔能够提供满足AI计算需求的、英伟达H100和A100的更具性价比的替代方案。
考虑到客户的个性化需求,英特尔正在通过能够帮助解决AI工作负载中推理与训练问题的产品,让AI无处不在。英特尔的AI产品为客户提供了可根据各自性能、效率及目标成本进行灵活匹配以获取最佳AI解决方案的理想选择,同时亦帮助客户开放生态系统。
从GPT-J模型上的推理结果来看,Habana Gaudi2的测试结果验证了其相当具有竞争力的性能:
●Gaudi2在GPT-J-99和GPT-J-99.9上的服务器查询和离线样本的推理性能分别为78.58次/秒和84.08次/秒。
●与英伟达H100相比,Gaudi2提供了令人信服的卓越性能,H100相对于Gaudi2仅表现出1.09 倍(服务器)和 1.28 倍(离线)的轻微性能优势。
●Gaudi2拥有高于英伟达A100 2.4倍(服务器)、2倍(离线)的性能。
●Gaudi2提交的结果采用FP8数据类型,并在这种新数据类型上达到了99.9%的准确率。
Habana的第二代加速器Gaudi2于去年发布,并在今年正式面向中国发布,其采用采用台积电7nm工艺制造,集成24个可编程的Tenor张量核心(TPC)、48MB SRAM缓存、21个10万兆内部互连以太网接口(ROCEv2 RDMA)、96GB HBM2E高带宽内存(总带宽2.4TB/s)、多媒体引擎等,支持PCIe 4.0 x16,最高功耗800W。
除了Gaudi2之外,英特尔也提交了基于第四代英特尔至强可扩展处理器的7个推理基准测试,其中包括GPT-J模型。结果显示,包括视觉、语言处理、语音和音频翻译模型,以及更大的DLRM v2深度学习推荐模型ChatGPT-J模型在内,第四代至强处理器对于通用 AI 工作负载拥有出色的性能。此外,截至目前,英特尔仍是唯一一家使用行业标准的深度学习生态系统软件提交公开CPU结果的厂商。
●第四代英特尔至强可扩展处理器是通过流行的AI框架与库构建及部署通用AI工作负载的理想选择。对于GPT-J对约1000-1500字新闻稿进行100字总结的任务,第四代至强可扩展处理器可在离线模式下完成每秒两段的总结提要,在实时服务器模式下完成每秒一段的总结提要。
●英特尔首次提交了英特尔至强CPU Max系列的MLPerf 结果,该系列可提供高达64 GB的高带宽内存。对于 GPT-J而言,它是仅有的能够达到99.9%准确度的 CPU,这对于对精度要求极高的应用来说至关重要。
●英特尔与OEM厂商合作提交了测试结果,进一步展示了其AI性能的可扩展性,以及基于英特尔至强处理器的通用服务器的可获取性,充分满足客户服务水平协议 (SLA)。
MLPerf是业内享有盛名的AI性能基准测试,旨在实现公平、可重复的产品性能比较。英特尔计划为下一个MLPerf测试提交新的AI训练性能结果。持续的性能更新彰显了英特尔致力于帮助客户、助力AI技术演进所迈出的每一步,无论是低成本的AI处理器,还是面向网络、云和企业用户的高性能AI硬件加速器或是GPU。
本文属于原创文章,如若转载,请注明来源:MLCommons发布MLperf推理性能基准测试结果 英特尔Gaudi2加速器展示强劲实力https://server.zol.com.cn/832/8325185.html