天翼云完成首个国产化万卡训练,MFU达到国内领先水平!

天翼云开发者社区
• 阅读 85

天翼云自研国内首个单集群万卡国产化全功能预训练云服务平台发布上线,并完成万卡规模Llama3.1-405B大模型训练。Llama3.1-405B作为4000亿参数的模型,在息壤训推服务平台的支持下经过多轮优化,MFU达到国内领先水平;另外,700亿参数模型Llama2-70B在万卡规模下完成训练,MFU也处于业界领先水平

万卡纳管、并行训练 大模型训练效率大幅提升

平台具备万卡纳管和并行训练能力,基于HPFS的PB级并行文件系统和CTCCL的RDMA高速卡间互联技术、基于Gang策略与拓扑感知的智算容器调度,以及慧聚自研分布式训练框架TeleFormers和平台,实现万卡资源纳管和万卡规模并行训练。 天翼云自研了AI框架Teleformers,对算子、通信、数据处理进行优化,以及并行策略的自适应调整,显著提升大模型训练的训练效率,在目前业内最大参数规模开源单体稠密模型Llama3.1-405B大模型训练测试中,性能表现达到国际同等水平。 算子优化方面: 针对昇腾芯片的特性,在网络结构层面对诸多高频算子进行了定制化改造,构建了高性能算子集。以matmul算子为例,天翼云利用昇腾芯片的计算亲和性,将算子输入padding到特定的维度,大幅提升执行效率,从而明显缩短了训练时间。 数据处理和流水线方面: 通过设置合理的数据分片策略和HPFS条带化优化,结合数据预取与数据下沉技术,大幅提升数据流的处理效率和稳定性;对预处理后的数据集进行了二次分片并提供就近缓存能力,减少GPU空闲时间。

天翼云完成首个国产化万卡训练,MFU达到国内领先水平!

自适应并行策略: 基于对3D并行中各类计算单元的分析,天翼云设计了多种自适应的3D并行策略,依据模型规模和硬件资源的不同可以自动选择合适的并行策略,充分利用计算资源和显存资源,缩短模型训练中每轮的迭代时间。

天翼云完成首个国产化万卡训练,MFU达到国内领先水平!

多项技术突破,实现万卡训练故障 秒级定位、分钟级处理、分钟级恢复

天翼云息壤训练服务平台基于软硬件协同设计,提供全链路故障监控、基于主动感知的全链路故障监控和定位、CheckPoint秒级多级高速存储系统、容错优雅调度和模型编译缓存等系统,将万卡规模故障发现和解决问题缩短到业内前沿的分钟级,大幅提升有效训练时间。 自动断点续训系统: 建设丰富的故障库,基于此构建了多维故障感知系统,能够快速主动感知相关故障事件和潜在的故障风险,并通过精准的故障隔离和调度手段,快速隔离处理故障节点并重新调度新节点接手任务继续训练,实现无人干预式断点续训,有效减少GPU闲置时间。

天翼云完成首个国产化万卡训练,MFU达到国内领先水平!

高速多级CheckPoint系统: 天翼云设计基于多级存储的高速CheckPoint系统,通过两阶段异步存储,实现高速写入内存,并最终异步写入远端系统;针对断点恢复场景,提供进程级故障原地快恢和远端快速恢复能力,最终实现对CheckPoint的秒级读写能力,大幅降低断点恢复时间、提升训练效率。

天翼云完成首个国产化万卡训练,MFU达到国内领先水平!

全链路检测工具链: 天翼云开发了全链路故障监控工具链,能够基于主动感知实现全链路的故障监控和定位。该工具链可以主动发现设备故障,并降低训练中断的频次,确保训练过程的连续性和稳定性。

天翼云国产化万卡智算中心训推服务平台的方案,适用于千亿/万亿级参数规模大语言模型训练,如Llama3、Qwen等超大规模语言模型,以及多模态模型开发、虚拟现实与元宇宙等。

点赞
收藏
评论区
推荐文章
Stella981 Stella981
3年前
Pytorch固定部分参数(只训练部分层)
在迁移学习中我们经常会用到预训练模型,并在预训练模型的基础上添加额外层。训练时先将预训练层参数固定,只训练额外添加的部分。完了之后再全部训练微调。在pytorch固定部分参数训练时需要在优化器中施加过滤。!(https://oscimg.oschina.net/oscnet/c2e82d04a39a6ac7a0edc7e41e7bbad219a
Wesley13 Wesley13
3年前
4项探索+4项实践,带你了解华为云视觉预训练研发技术
摘要:本文主要讲述云原生时代华为云在AI基础研究、视觉预训练模型研发和行业实践,以及AI开发平台ModelArts的最新进展。近日,在Qcon全球软件开发大会(深圳站)上,华为云人工智能领域首席科学家、IEEEFELLOW田奇博士,发表了“云原生时代,视觉预训练大模型探索与实践”的主题演讲,介绍了云原生时代华为云在AI基础研究、视觉预训练模
天翼云全场景业务无缝替换至国产原生操作系统CTyunOS!
中国电信天翼云于2021年发布基于欧拉的自研操作系统CTyunOS。截至2022年8月,CTyunOS已完成天翼云公有云平台全业务适配,通过提供完整的迁移工具体系和工程能力,使天翼云全场景业务无缝替换到CTyunOS,累计上线3万套,有效支撑中国电信“云改数转”的战略落地。CTyunOS的上线标志着运营商公有云首次实现全场景国产原生操作系统的适配,也标志着中
DeepSpeed: 大模型训练框架 | 京东云技术团队
目前,大模型的发展已经非常火热,关于大模型的训练、微调也是各个公司重点关注方向。但是大模型训练的痛点是模型参数过大,动辄上百亿,如果单靠单个GPU来完成训练基本不可能。所以需要多卡或者分布式训练来完成这项工作。
大语言模型微调数据竞赛,冠军!
近日,天池FTDataRanker竞赛落下帷幕,天翼云智能边缘事业部AI团队(后称天翼云AI团队)凭借在大语言模型(LLM)训练数据增强方面的卓越研究,荣获大语言模型微调数据竞赛——7B模型赛道冠军。
安全可信丨业内领先!天翼云公有云管理平台通过密评!
近日,天翼云公有云管理平台顺利通过商用密码应用安全性评估(以下简称密评),标志着天翼云公有云管理平台密码安全能力达到业内领先水平。
数字先锋 | “言”之有“力”,大模型背后的算力“推手”!
在算力调度方面,天翼云通过自研的调度系统,协助思必驰DFM2大模型调度GPU、NPU、CPU等异构算力资源,大规模训练上云1个月,可以完成数十亿规模大模型所有阶段训练和效果评估。在训练能力打造方面,天翼云支持多种模型训练方式,不仅可以提升大模型训练平台的数据量,还大幅缩短了训练周期和交付进度。
全国首/个!天翼云上海临港国产单池万卡液冷算力集群启用!
3月22日,中国电信宣布,天翼云上海临港国产万卡算力池正式启用,八家合作伙伴宣布将作为首批用户入驻临港国产算力池。这是国内首/个投入正式运营的国产单池万卡液冷算力集群,也是业内领先的全国产化云智一体公共智算中心。通过中国电信天翼云打造的人工智能公共算力服务平台,将以公共普惠、创新领先的算力供给,算、存、运一体的综合算力服务模式,全面赋能上海千行百业,成为上海“新算力”的重要一极。
3 x 2 + 1 !安 全 能 力 权 威 认 可 !
近日,由XOps大会组委会主办的“2024第三届XOps产业创新发展论坛”在北京召开。大会主论坛公布了2024上半年XOps最新评估结果,天翼云顺利通过ITUDevOps国际标准DevSecOps评估和DevOps国内标准《研发运营一体化(DevOps)能力成熟度模型第6部分:安全及风险管理》2级能力成熟度评估,代表了天翼云安全达到国内领先水平,也是当前全域通过的最高等级
“模”力十足!天翼云息壤一体化智算服务平台训推服务能力重磅升级!
9月4日,“天翼云息壤——大模型训推一体化服务能力升级”线上发布会成功举办。会上,息壤平台训推服务能力重磅升级,新增闭源、多模态基座大模型以及数据集,支持万卡规模训练,训练稳定性再次提升,新增体验空间,为基础大模型训练、行业大模型训推提供一站式解决方案。
天翼云开发者社区
天翼云开发者社区
Lv1
天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。
文章
696
粉丝
15
获赞
40