攻克大模型训练网络瓶颈,天翼云论文获ACM ICS顶会收录!

天翼云开发者社区
• 阅读 11

近日,由天翼云公有云事业部联合基础架构事业部所撰写的论文《CTCCL:Cost-Efficient Joint Device-Network Load Balancing for LLM Training in RoCE-based Intelligent Computing Network》被第39届ACM International Conference on Supercomputing 2025 (简称ICS)收录。这一成果不仅标志着天翼云在智算网络领域的技术突破获国际学术权威认可,更为天翼云智算集群、大模型训练平台等核心产品注入硬核技术支撑,推动AI算力效率与成本控制实现双重升级。

攻克大模型训练网络瓶颈,天翼云论文获ACM ICS顶会收录!

作为高性能计算领域的顶级盛会,ICS由美国计算机学会(ACM)主办,是中国计算机学会(CCF)推荐的国际重要会议,吸引了全球相关领域众多顶尖学者与产业专家参与。其论文接收率仅约23.32%,所有投稿均需经过严格的同行双盲评审,收录成果代表着当前领域的前沿创新方向。此次天翼云自研集合通信库相关研究的成功入选,是对天翼云技术创新能力的国际认可,彰显了中国云服务商在智算核心技术领域的全球竞争力。

CTCCL+DNLB端网协同方案,破解RoCE网络大模型训练痛点

随着大模型训练进入千亿参数时代,RoCE网络作为智算集群的关键基础设施,正面临“高负载下链路拥堵、大规模部署成本高企”的行业共性难题:现有负载均衡方案依赖自研网卡、交换机等定制硬件,推高中小集群部署门槛;适配性不足,在复杂组网或多任务场景下易出现故障断联,严重影响训练效率。

针对这些痛点,天翼云在论文中创新提出“Joint Device-Network Load Balancing (DNLB)端网协同负载均衡方案”,并通过自研集合通信库CTCCL实现端到端落地,构建起“高性能、低成本、强兼容”的智算通信支撑体系。

攻克大模型训练网络瓶颈,天翼云论文获ACM ICS顶会收录!

基于CTCCL集合通信库的端网协同负载均衡方案

01 端网协同,双维度破解流量拥堵

端侧精准控流:CTCCL创新推出UDP源端口分段算法,基于不同节点RDMA网卡IP地址,为每个队列对(QP)分配唯一连续的UDP源端口,从源头降低哈希冲突,实现流量的“有序分流”。同时,CTCCL内置故障感知机制,可自动将故障链路流量重分配至正常QP,无需人工干预,保障训练不中断。

网侧简单配置:仅需在Leaf交换机配置简单的ACL+PBR规则,即可将不同端口段流量均匀映射至不同上行链路,以“无额外硬件投入”的低成本方式实现负载均衡,实现流量的“精准路由”。

02 强兼容性适配多元场景

该方案无需依赖特定硬件,支持单轨/多轨GPU集群,对并发任务数量无限制,可灵活适配从中小集群到大规模智算中心的多样场景,大幅降低技术落地门槛。

03 实测验证:效率与稳定性双重突破

在真实智算集群测试中,基于CTCCL的DNLB方案性能优势显著。相比传统NCCL和ECMP方案,AllReduce峰值带宽从16.1GB/s提升至22.6GB/s,集合通信效率提升40%,大模型训练效率提升7%,端口负载方差从92.22降至0.06,彻底解决了链路拥堵问题。即便遭遇网络故障,流量也可快速重分配,负载均衡度仍保持在95%以上,确保训练全程无卡顿。

凭借硬核技术突破,天翼云在提升AI算力效率的同时显著降低TCO,实现从“解决痛点”到“加速创新”的跨越。未来,天翼云将持续加强关键核心技术自主攻关,优化智能计算的效率与成本,构建更稳定、高效、普惠的智算基础设施,赋能千行百业数字化转型,为数字经济高质量发展注入澎湃动能。

点赞
收藏
评论区
推荐文章
大语言模型微调数据竞赛,冠军!
近日,天池FTDataRanker竞赛落下帷幕,天翼云智能边缘事业部AI团队(后称天翼云AI团队)凭借在大语言模型(LLM)训练数据增强方面的卓越研究,荣获大语言模型微调数据竞赛——7B模型赛道冠军。
安全可信丨业内领先!天翼云公有云管理平台通过密评!
近日,天翼云公有云管理平台顺利通过商用密码应用安全性评估(以下简称密评),标志着天翼云公有云管理平台密码安全能力达到业内领先水平。
彰显科技硬实力!天翼云论文在国际顶刊JoCCASA发表!
近日,由天翼云科技有限公司云网产品事业部混合云团队完成的论文《MultivariateTimeSeriesCollaborativeCompressionforMonitoringSystemsinSecuringCloudbasedDigitalTwin》在云计算领域国际知名学术期刊JournalofCloudComputing:Advances,SystemsandApplications(JoCCASA)发表。
第一!天翼云荣获国际人工智能顶会AAAI 2024大模型数学理解&推理竞赛冠军!
近日,AAAI2024GlobalCompetitiononMathProblemSolvingandReasoning大赛落下帷幕,天翼云智能边缘事业部AI团队凭借在大模型基础能力研究领域的数据处理与模型训练策略的领先优势,在众多参赛队伍中脱颖而出,荣获本次竞赛冠军。
再获权威认可!天翼云论文被IEEE/ACM CCGrid收录
近日,由天翼云弹性网络开拓者团队撰写的《TowardsBetterQoSandLowerCostsofP4EIPGatewayattheEdge》论文被The24thIEEE/ACMInternationalSymposiumonCluster,Cloud,andInternetComputing (CCGrid2024) 长文收录。
三项国际人工智能顶会大奖!拿下!
近日,国际人工智能顶会CVPR 2024举办的第6届自然场景情感行为分析挑战赛(6thWorkshopandCompetitiononAffectiveBehaviorAnalysisinthewild,简称ABAW)公布比赛结果,天翼云AI团队(CtyunAI)在情感识别任务中表现出色,斩获双赛道亚军、单个赛道季军,并受邀在CVPRABAW研讨会上作论文分享。这是继天翼云在CVPR中荣获多次佳绩后再一次斩获殊荣。
登上国际舞台!天翼云P4 EIP网关流量管理创新方案亮相CCGrid 2024!
5月8日,第24届IEEE/ACM集群、云和互联网计算国际研讨会(CCGrid2024)在美国费城隆重举行。来自中国、美国、印度、法国等国家的学术及产业界代表齐聚一堂,围绕云计算相关议题进行深入探讨和交流,并带来最前沿的技术展示。天翼云云网产品事业部弹性网络产品线总监侯叶飞出席大会硬件系统和网络分论坛,对本次被CCGrid长文收录的论文《TowardsBetterQoSandLowerCostsofP4EIPGatewayattheEdge》进行专业解析,并分享了天翼云在开放数据中心网络及可编程网关领域的创新与实践经验,再次彰显了天翼云的技术创新实力。
“翼”鸣惊人,天翼云两篇论文被ACM ICPP 2024收录!
近日,由天翼云科技有限公司弹性计算产品线天玑实验室撰写的两篇论文《PheCon:FineGrainedVMConsolidationwithNimbleResourceDefragmentationinPublicCloudPlatforms》及《Yggdrasil:ReducingNetworkI/OTaxwith(CXLBased)DistributedSharedMemory》被ACMInternationalConferenceonParallelProcessing(ICPP)收录。
国际“论”剑!天翼云数据库论文被EDBT收录!
近日,由天翼云数据库团队、中国电信云计算研究院和深圳北理莫斯科大学合作完成的《Taste:TowardsPracticalDeepLearningbasedApproachesforSemanticTypeDetectionintheCloud》(构建云上基于深度学习的大规模语义类型识别系统)论文被28thInternationalConferenceonExtendingDatabaseTechnology(EDBT)长文收录。
第一!中国电信天翼云全面领跑中国政务公有云市场!
国际数据公司(IDC)近日发布《中国政务云市场份额,2024:政务公有云》(DocCHC53558325,2025年7月),中国电信天翼云以26.1%的市场份额,持续领跑中国政务公有云市场。近两年,天翼云在政务公有云基础设施(IaaS)、平台(PaaS)和
天翼云开发者社区
天翼云开发者社区
Lv1
天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。
文章
917
粉丝
16
获赞
40