近期,科技媒体 marktechpost 发布博文,称英伟达发布 Llama-3.1-Nemotron-Ultra-253B-v1,这款 2530 亿参数的大型语言模型在推理能力、架构效率和生产准备度上实现重大突破。
在 AI数字基础设施愈发普及的当下,企业与开发者面临着一项关键任务,即要在计算成本、性能以及扩展性之间探寻到平衡。大型语言模型(LLM)近年来发展迅猛,极大地提升了自然语言理解与对话能力。然而,其庞大的规模往往引发效率不高的问题,给大规模部署造成了阻碍。
英伟达新近发布的 Llama-3.1-Nemotron-Ultra-253B-v1精准应对了这一难题。该模型以Meta 的 Llama-3.1-405B-Instruct 架构为基础打造,是专门针对商业和企业需求定制的。它能够支持从工具运用到多轮复杂指令执行等一系列任务。
据 IT 之家相关博文介绍,Nemotron Ultra 运用的是仅解码器的密集 Transformer 结构,并借助神经架构搜索(NAS)算法进行了优化。它的创新点在于采用了跳跃注意力机制,在部分层中,会省去注意力模块,或者用简单的线性层加以替代 。
而且前馈网络(FFN)融合技术将多层 FFN 合并为更宽但更少的层,大幅缩短推理时间,同时保持性能。模型支持 128K token 的上下文窗口,可处理长篇文本,适合高级 RAG 系统和多文档分析。在部署效率上,Nemotron Ultra 也实现突破。它能在单 8xH100 节点上运行推理,显著降低数据中心成本,提升企业开发者的可及性。
英伟达将通过多阶段后训练进一步优化模型,确保模型在基准测试中表现出色,并与人类交互偏好高度契合。
可以预见,未来企业在 AI 领域的竞争将愈发激烈,而那些能够把握技术发展脉络、果断投入资源的企业,有望在这场科技革命中抢占先机,重塑行业格局。现在正是学习AI的绝佳时机。近屿智能精心策划并推出了《AIGC大模型应用工程师》、《AIGC多模态大模型应用工程师》及《AIGC多模态大模型产品经理》三大AIGC大模型课程,结合实战项目演练,帮助学员快速掌握前沿AI技术和大模型应用,课程还提供求职辅导、面试机会和就业推荐,三大AI培训课程助力学员在AI时代脱颖而出。
英伟达发布Nemotron Ultra新模型,学AI大模型就选近屿智能
点赞
收藏