热点:
    ZOL首页 > 服务器 > 正文

    浪潮信息发布源2.0基础大模型,千亿参数全面开源

      [  中关村在线 原创  ]   作者:陈赫

    11月27日,浪潮信息发布“源2.0”基础大模型,并宣布全面开源。源2.0基础大模型包括1026亿、518亿、21亿等三种参数规模的模型,在编程、推理、逻辑等方面展示出了先进的能力。

    当前,大模型技术正在推动生成式人工智能产业迅猛发展,而基础大模型的关键能力则是大模型在行业和应用落地能力表现的核心支撑,但基础大模型的发展也面临着在算法、数据和算力等方面的诸多挑战。源2.0基础大模型则针对性地提出了新的改进方法并获得了能力的提升。

    算法方面,源2.0提出并采用了一种新型的注意力算法结构:局部注意力过滤增强机制(LFA:Localized Filtering-based Attention)。LFA通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确、更人性,提升了模型的自然语言表达能力,进而提升了模型精度。 

    浪潮信息发布源2.0基础大模型,千亿参数全面开源

    数据方面,源2.0通过使用中英文书籍、百科、论文等高质量中英文资料,降低了互联网语料内容占比,结合高效的数据清洗流程,为大模型训练提供了高质量的专业数据集和逻辑推理数据集。为了获取中文数学数据,我们清洗了从2018年至今约12PB的互联网数据,但仅获取到了约10GB的数学数据,投入巨大,收益较小。为了更高效地获得相对匮乏的高质量中文数学及代码数据集,源2.0采用了基于大模型的数据生产及过滤方法,在保证数据的多样性的同时也在每一个类别上提升数据质量,获取了一批高质量的数学与代码预训练数据。

    浪潮信息发布源2.0基础大模型,千亿参数全面开源

    算力方面,源2.0采用了非均匀流水并行的方法,综合运用流水线并行+优化器参数并行+数据并行的策略,让模型在流水并行各阶段的显存占用量分布更均衡,避免出现显存瓶颈导致的训练效率降低的问题,该方法显著降低了大模型对芯片间P2P带宽的需求,为硬件差异较大训练环境提供了一种高性能的训练方法。

    浪潮信息发布源2.0基础大模型,千亿参数全面开源

    源2.0作为千亿级基础大模型,在业界公开的评测上进行了代码生成、数学问题求解、事实问答方面的能力测试,测试结果显示,源2.0在多项模型评测中,展示出了较为先进的能力表现。

    浪潮信息发布源2.0基础大模型,千亿参数全面开源

    源2.0采用全面开源策略,全系列模型参数和代码均可免费下载使用。

    本文属于原创文章,如若转载,请注明来源:浪潮信息发布源2.0基础大模型,千亿参数全面开源https://server.zol.com.cn/845/8451847.html


    在文章下方参与AMD商用电脑调查调查并完成问卷,即有可能获得AMD定制背包奖品。我们将从所有参与问卷的用户中按参与顺序排序,选出每周第30%、60%、90%位用户(示意:若100份参与者,即评选方法为100*90%;小数点四舍五入)

    活动规则:

    1、每个ID仅可投票一次、且获奖一次,重复获奖则顺延下一位参与用户

    2、完整参与调查成功后才可参与本次活动

    3、活动评选方法为按每周整体参与调查人数*30%、60%、90%,小数点四舍五入

    4、请填写好个人信息,包括手机号等,以方便我们联系上您

    5、活动时间为7月17日-7月30日;结果公布时间为每周二,在开奖文章内公布中奖者

    6、若超过15个工作日仍然没有领奖,我们视为自动放弃奖品

    注意事项:填写提交此问卷,就视为您同意AMD公司及其授权合作伙伴为您发送AMD产品、解决方案或服务的相关信息,且您知道随时可以取消订阅。同时,您已仔细阅读并同意中关村在线用户协议隐私政策

    server.zol.com.cn true https://server.zol.com.cn/845/8451847.html report 1709 11月27日,浪潮信息发布“源2.0”基础大模型,并宣布全面开源。源2.0基础大模型包括1026亿、518亿、21亿等三种参数规模的模型,在编程、推理、逻辑等方面展示出了先进的能力。当前,大模型技术正在推动生成式人工智能产业迅猛发展,而基础大模型的关键能力则是大模型在行...
    • 猜你喜欢
    • 最新
    • 精选
    • 相关
    周关注排行榜
    • 产品
    • 品牌
    0

    下载ZOL APP
    秒看最新热品

    内容纠错