浪潮信息发布“源2.0-M32”开源大模型


5月28日,浪潮信息发布“源2.0-M32”开源大模型。“源2.0-M32”在“源2.0”系列大模型已有工作基础上,创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型。
据介绍,针对MoE模型核心的专家调度策略,“源2.0-M32”采用的新型的算法结构“基于注意力机制的门控网络”,关注专家模型之间的协同性度量,有效解决传统门控网络下,选择两个或多个专家参与计算时关联性缺失的问题,使得专家之间协同处理数据的水平大为提升。“源2.0-M32”以“源2.0-2B”为基础模型设计,沿用并融合局部过滤增强的注意力机制(LFA, Localized Filtering-based Attention),通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确,进而提升了模型精度。
在数据层面,“源2.0-M32”基于超过2万亿的token(文本中最小的语义单元)进行训练,覆盖万亿量级的代码、中英文书籍、百科、论文及合成数据。基于这些数据的整合和扩展,“源2.0-M32”在代码生成、代码理解、代码推理、数学求解等方面有着出色的表现。在算力层面,“源2.0-M32”为硬件差异较大训练环境提供了一种高性能的训练方法。针对MOE模型的稀疏专家计算,该模型采用合并矩阵乘法的方法,模算效率得到大幅提升。
基于在算法、数据和算力方面全面创新,“源2.0-M32”的性能得以大幅提升,在MATH(数学竞赛)、ARC-C(科学推理)榜单上超越了拥有700亿参数的LLaMA3大模型。
“源2.0-M32”大幅提升了模型算力效率,在实现与业界领先开源大模型性能相当的同时,显著降低了在模型训练、微调和推理所需的算力开销。
浪潮信息人工智能首席科学家吴韶华表示:当前业界大模型在性能不断提升的同时,也面临着所消耗算力大幅攀升的问题,给企业落地应用大模型带来了极大的困难和挑战。“源2.0-M32”是浪潮信息在大模型领域持续耕耘的最新探索成果,大幅提升的模算效率将为企业开发应用生成式AI提供模型高性能、算力低门槛的高效路径。“M32开源大模型配合企业大模型开发平台EPAI(Enterprise Platform of AI),将助力企业实现更快的技术迭代与高效的应用落地,为人工智能产业的发展提供坚实的底座和成长的土壤,加速产业智能化进程。”他说。
本文链接:http://knowith.com/news-1-672.html浪潮信息发布“源2.0-M32”开源大模型
声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
哈尔滨师范大学研究生分数线(哈尔滨师范大学研究生分数线2023)
资阳考研在哪儿考,张韬几岁
许昌学院考研氛围,哪个学校研究生好考
2022年天津理工大学考研分数线(2022年天津理工大学考研分数线是多少)
普通二本考研还是考公务员(二本选择考研还是考公)
2014考研:经济学名词解释荟萃(第9辑)
2014考研:经济学名词解释荟萃(第10辑)
2015经济学考研:西方经济学模拟试题二答案
青岛考研 青岛大学研究生好考吗
青岛大学研究生好考吗(青岛考研辅导班哪个好)
透露:京东白条去哪里可以套(精彩绝伦,建议反复观看)-知者
代购新资讯:印度奥贝胆酸代购正品如何获取?2025不出国印度奥贝胆酸哪里买购买渠道揭晓!靶向药(5mg30片)印度奥贝胆酸多少钱一盒2025市场售价真实盘点
铿锵有力:羊小咩便荔卡额度如何套出来(试试五种方法)
大吉大利:深圳龙华代还信用卡最好还款服务,多年经验诚信
靶向药印度丙通沙(丙通沙)多少钱一盒价格约1900元一盒!印度丙通沙价格折合人民币约1900元一盒(28粒)印度丙通沙代购价格约4900元购买方法yb价格一览表
大吉大利:惠州惠城区垫还信用卡,放心的选择,高效便捷服务
大吉大利:广州番禺区代还信用卡取现,可长期帮还,流程简单高效
如登春台:杭州临安区代还信用卡垫还,都在这信誉至上,高效便捷服务
砥砺前行:美团月付怎么套出来(分享五个操作方法)
秉烛达旦:DY月付怎么套出来(公布三个最新提现方法)