英伟达推出Nemotron Ultra:2530亿参数大模型,突破AI推理与部署效率
近期,科技界传来了一则令人瞩目的消息。据知名科技媒体marktechpost报道,英伟达公司于近日正式推出了其最新研发的大型语言模型——Llama-3.1-Nemotron-Ultra-253B-v1,业界简称为Nemotron Ultra。这款模型拥有2530亿个参数,在推理能力、架构效率以及生产准备度方面实现了显著的提升,为AI技术的发展注入了新的活力。
随着AI技术在数字基础设施中的广泛应用,企业和开发者面临着计算成本、性能与扩展性之间的平衡挑战。大型语言模型(LLM)虽然能够显著提升自然语言理解和对话能力,但其庞大的规模往往导致效率低下,难以进行大规模部署。针对这一难题,Nemotron Ultra应运而生。
Nemotron Ultra基于meta的Llama-3.1-405B-Instruct架构,专为满足商业和企业需求而设计。它能够支持从工具使用到多轮复杂指令执行等多种任务,为企业提供了强大的支持。在架构上,该模型采用了仅解码器的密集Transformer结构,并通过神经架构搜索(NAS)算法进行了优化。其创新之处在于引入了跳跃注意力机制,在部分层中省略了注意力模块或替换为简单的线性层,从而提高了模型的效率。
Nemotron Ultra还采用了前馈网络(FFN)融合技术,将多层FFN合并为更宽但更少的层,进一步缩短了推理时间,同时保持了卓越的性能。该模型支持高达128K token的上下文窗口,能够处理长篇文本,非常适合用于高级RAG系统和多文档分析。

在部署效率方面,Nemotron Ultra同样表现出色。它能够在单个8xH100节点上运行推理,显著降低了数据中心的成本,提高了企业开发者的可及性。这一突破性的进展使得大型语言模型在商业应用中的部署变得更加高效和便捷。

为了进一步优化模型性能,英伟达还采取了多阶段后训练策略。这包括在代码生成、数学、对话和工具调用等任务上进行监督微调,以及使用群体相对策略优化(GRPO)算法进行强化学习(RL)。这些措施确保了Nemotron Ultra在基准测试中表现出色,并且能够与人类交互偏好高度契合,为用户带来更加自然、流畅的体验。
本文链接:http://knowith.com/news-23-219555.html英伟达推出Nemotron Ultra:2530亿参数大模型,突破AI推理与部署效率
声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
关于对北京市朝阳区2023年度第十二批拟认定创新型中小企业名单进行公示的通知
【解读】抓紧推动落实相关政策支持中小企业发展——四部门回应推动民营经济高质量发展
关于开展智能网联汽车“车路云一体化”应用试点工作的通知(工信部联通装〔2023〕268号)
【解读】国家文物局有关负责人就《关于加强文物科技创新的意见》接受专访
《绿色建材产业高质量发展实施方案》
关于进一步做好新冠疫情防控经费保障切实加强防控经费管理的通知(财办〔2023〕5号)
首批30家服务站“各显其能”—— 北京:多维度靶向赋能专精特新企业
推动科技向善 把好伦理“方向盘”——科技部有关负责人解读《科技伦理审查办法(试行)》
图说外观设计|局部外观设计专利申请概览
“创客北京2024”创新创业大赛 神州数码•高科数聚汽车行业大数据驱动决策专项赛项目征集通知
下载90G高清电影只需70多秒 京沪等地布局万兆光网