“模”力十足!天翼云息壤一体化智算服务平台训推服务能力重磅升级!

天翼云开发者社区
• 阅读 189

9月4日,“天翼云息壤——大模型训推一体化服务能力升级”线上发布会成功举办。会上,息壤平台训推服务能力重磅升级,新增闭源、多模态基座大模型以及数据集,支持万卡规模训练,训练稳定性再次提升,新增体验空间,为基础大模型训练、行业大模型训推提供一站式解决方案。天翼云多位专家与合作伙伴代表发表精彩演讲,共探人工智能大模型的发展趋势与挑战,并对平台升级后的能力与优势,以及在医疗领域的赋能实践进行了深度解读。

平台全新升级 提供稳定高效的大模型训推一体化服务

我国大模型已进入快速发展阶段,但大模型的研发与推广仍然面临一定的压力和挑战,呈现出“基础丰富,应用不足”的特点。一方面,大模型的训练和应用需要大量的高质量数据,当前我国数据资源有限且分散,导致模型训练效果并不理想;另一方面,模型的参数量和计算复杂度持续增加,对算力的需求以几何级数增长。行业亟需更加高效、集约化的智算平台的支撑,以驱动国产大模型高质量发展与产业化应用。

天翼云智算产品线总监张安发表示,升级后的平台专为应对大参数大模型、行业模型应用所带来的挑战而设计,它提供了一个全栈式的服务,旨在简化大模型从训练到部署的整个流程。平台新增了开闭源大模型、多模态大模型,供用户灵活选择,模型数量处于国内领先水平;新增上线专业的大模型数据集,用户可直接将数据用于大模型训练、推理任务中,实现了算法、算力、数据三要素的融合;新增体验中心,用户可直接在线互动体验;打造了全链路故障感知和恢复、全链路日志监控工具,突破断点续训等核心技术,使全链路监控训练更稳定。

“模”力十足!天翼云息壤一体化智算服务平台训推服务能力重磅升级!

随着模型参数量从千亿迈向万亿,大模型对底层算力的诉求进一步升级,万卡甚至超万卡集群已经成为大模型产业发展的刚需,同时对训练稳定性要求极高。根据公开报道,Llama3.1-405B原生训练耗时持续54天,累计发生419次故障,平均每3小时产生一次。天翼云智算产品线专家范顺国介绍,天翼云训推服务平台是国内首个实现公有云国产化万卡训练的平台,能够为万亿参数级别大模型训练提供一体化方案。天翼云在北京万卡池完成了Llama3-405B(4000亿参数)大模型的训练,700亿参数模型Llama2-70B在万卡规模下顺利拉起并完成训练MFU达到43%,在业界达到了领先水平。天翼云优化断点续训技术,在Llama2-70B模型训练中,实现秒级故障检测,分钟级定位并处理故障,分钟级训练恢复,这一性能已达到行业前沿水平。

“模”力十足!天翼云息壤一体化智算服务平台训推服务能力重磅升级!

此外,基于平台能力,天翼云联合伙伴上线了魔乐(Modelers)开发者社区,通过整合优质中文AI资源、提供极致易用的工具链,以及国产化算力使能,端到端支持AI应用开发全流程,助力孵化国产原生模型。

三种交付形态+两大应用场景 助力企业加速AI应用落地

AI技术加速融入各行各业,大模型的应用前景也愈加广阔。天翼云息壤一体化智算服务平台从行业及客户需求出发,在技术与能力的不断迭代升级中使能企业制胜AI时代。

天翼云智算产品线专家夏曼雪对平台功能进行了详细演示。平台支持公有云、混合云和轻量化三种交付形态。其中,公有云版本即开即用、计费灵活,支持按卡时计费、包周期计费;混合云版本支持千卡规模的私有化项目交付;轻量化版本支持天翼云A100云主机、H800/A100/A800/A10裸金属服务器、物理机等硬件形态交付部署,灵活便捷。

“模”力十足!天翼云息壤一体化智算服务平台训推服务能力重磅升级!

场景应用方面,平台主要面向两类客户场景。一是具备深厚行业知识、拥有自主数据的行业客户,如政务、金融机构、汽车、媒体、旅游等行业。依托零代码平台和丰富的开闭源大模型,客户无需掌握算法编程即可完成模型的调优和API调用,从而加速大模型从概念到落地的进程。二是拥有很强的算法能力,但在智算集群的管理运维方面经验不足的大模型厂商。平台为这类用户提供专业的开发和运维工具,实现大规模分布式训练和断点续训能力,在保障稳定性的同时,通过构建AI加速引擎助力用户提升算力利用率。

目前,天翼云已服务多个客户的训推场景,助力行业大模型训推更便捷、更高效、更稳定安全。中国中医科学院中医药信息研究所(简称“中医药信息研究所”)所长特聘助理朱彦分享了与天翼云合作开展中医药大模型的探究与实践,通过与天翼云合作,中医药信息研究所获得了更加稳定和高效的计算支持。借助天翼云大模型学习机,搭建低代码服务平台,中医药信息研究所高效完成了文献和临床数据的治理工作,包括自动抽取、标准化等任务。此外,在中医垂类大模型的微调、应用发布方面,平台将提供算法支持和模型优化工具,帮助客户充分挖掘中医药数据的内在价值。双方合作与探索,不仅进一步加速了中医大模型的研究和应用,以及中医药的现代化进程,也将为全球健康事业的发展做出重要贡献。

“模”力十足!天翼云息壤一体化智算服务平台训推服务能力重磅升级!

伴随以大模型为核心的人工智能技术的快速发展,各行各业正经历着一场前所未有的智能化转型浪潮。作为云服务国家队,天翼云将持续聚焦人工智能场景进行技术创新,积极加码布局智算基础设施,赋能企业跑出“AI加速度”,携手合作伙伴共同推动经济社会智能化水平迈向新高度。

点赞
收藏
评论区
推荐文章
大语言模型微调数据竞赛,冠军!
近日,天池FTDataRanker竞赛落下帷幕,天翼云智能边缘事业部AI团队(后称天翼云AI团队)凭借在大语言模型(LLM)训练数据增强方面的卓越研究,荣获大语言模型微调数据竞赛——7B模型赛道冠军。
数字先锋 | “言”之有“力”,大模型背后的算力“推手”!
在算力调度方面,天翼云通过自研的调度系统,协助思必驰DFM2大模型调度GPU、NPU、CPU等异构算力资源,大规模训练上云1个月,可以完成数十亿规模大模型所有阶段训练和效果评估。在训练能力打造方面,天翼云支持多种模型训练方式,不仅可以提升大模型训练平台的数据量,还大幅缩短了训练周期和交付进度。
实力强劲!天翼云斩获多项权威大奖与认证!
近日,云计算标准和开源推进委员会(TC608)年度工作总结会暨算力服务工作组成果发布会在北京召开。会上,天翼云斩获2023年算力服务领航者计划优秀案例等多项大奖,天翼云算力分发网络平台“息壤”通过了可信算力调度服务能力认证。凭借领先的产品技术和丰富的落地实践,天翼云深度赋能千行百业高质量发展,获得业界权威认可。
第一!天翼云荣获国际人工智能顶会AAAI 2024大模型数学理解&推理竞赛冠军!
近日,AAAI2024GlobalCompetitiononMathProblemSolvingandReasoning大赛落下帷幕,天翼云智能边缘事业部AI团队凭借在大模型基础能力研究领域的数据处理与模型训练策略的领先优势,在众多参赛队伍中脱颖而出,荣获本次竞赛冠军。
云行|中国速度,智算未来!天翼云为宁波数智化发展注入新动能!
智算正成为人工智能时代的关键生产力要素。为落实好国家要求,抓住智算新机遇,天翼云着力打造从IaaS到SaaS的一体化服务,实现基础设施、算力平台、算力调度、行业大模型的全面升级。天翼云科技有限公司副总经理黄洪波表示,天翼云已在浙江形成了“211X”的分布式算力资源布局,通过算力多级下沉和层次化布局,天翼云具备了差异化的资源服务能力,广泛服务于宁波等浙江省各类行业客户,为客户提供普惠、泛在、安全的算力资源。未来,天翼云将立足宁波所在的长三角集群,持续深化“东数西算”布局,进一步深化合作,共谋发展。
国云注智,聚力向新!天翼云打造五位一体智算云能力体系!
5月25日,第七届数字中国建设峰会期间,以“国云注智 聚力向新”为主题的2024智算云生态大会·智算云论坛在福州召开。天翼云全面升级产品及生态矩阵,打造“算力·平台·数据·模型·应用”五位一体的智算云能力体系。会上举行“开源大模型社区发布暨生态繁荣计划启动”、“息壤区域算力互联互通及调度管理服务计划暨息壤城市算力互联网点亮行动”等仪式,通过产业各方伙伴共创、共建、共推智算产业发展再上新台阶。作为云服务国家队,天翼云正以全新智算云布局,加快构建以科技创新为驱动的新质生产力,为数字经济发展与数字中国建设注入澎湃动能。
行业标准引领者!天翼云助推智算领域规范化发展!
7月24日,2024可信云大会召开期间,智算云服务论坛上,天翼云荣获中国信通院颁发的“智算工程平台能力要求标准参编证书”,代表了业界对天翼云在推动行业标准制定中所作贡献及成果的重要肯定,以及对天翼云技术创新水平的高度认可。会上,天翼云科技有限公司智算产品线资深技术专家瞿龙发表演讲,介绍了天翼云智算平台加速大模型应用方面的技术亮点与成功案例。
天翼云完成首个国产化万卡训练,MFU达到国内领先水平!
天翼云自研国内首个单集群万卡国产化全功能预训练云服务平台发布上线,并完成万卡规模Llama3.1405B大模型训练。Llama3.1405B作为4000亿参数的模型,在息壤训推服务平台的支持下经过多轮优化,MFU达到国内领先水平;另外,700亿参数模型Llama270B在万卡规模下完成训练,MFU也处于业界领先水平。
云行 | “云”启新篇 “智”赋百业,天翼云为金华数字经济发展注入新动能!
10月17日,以“婺云启航翼领未来”为主题的天翼云中国行·浙江金华站活动圆满落幕。金华市政府有关领导、合作伙伴企业代表等嘉宾出席活动,共话云计算发展新趋势,共探金华市产业数智化升级新路径。现场重磅举行金华市算力公共服务平台、金华市数据交易平台,以及天翼云息壤智算一体机发布仪式,通过领先的产品、资源优势和强大的智算服务能力,中国电信天翼云携手合作伙伴共建共创,助力金华市加速建设浙中科创走廊,进一步提升区域创新能力和综合竞争力,驱动数字经济创新提质。
载誉而归!天翼云荣获第23届中国IT用户满意度大会多项殊荣
10月25日,2024第23届中国IT用户满意度大会暨首届工业产品满意度交流会在北京举行。现场揭晓“2024中国IT用户满意度征集结果”,天翼云凭借领先的产品技术、完善的客户服务以及在IT行业中的卓越贡献,荣获多项殊荣。其中,天翼云StateCloud云计算品牌、“息壤”一体化智算服务体系、连接保护办公轻量云AOne获评用户满意度第一;云顶大模型营销服一站式解决方案荣获用户首选品牌。
天翼云开发者社区
天翼云开发者社区
Lv1
天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。
文章
722
粉丝
15
获赞
40