迎接智算新挑战,天翼云亮相全球架构师峰会!

天翼云开发者社区
• 阅读 309

近日,ArchSummit全球架构师峰会在深圳隆重开幕,本次大会以“智能进阶. 架构重塑”为主题,探讨AI浪潮下,企业架构如何适应大模型和云原生的时代趋势,寻找既有应用成果又有成本效益的解决方案。国内外100余名顶尖专家齐聚一堂,围绕AI、大模型、云原生等话题展开深度交流。天翼云云网产品事业部研发专家黄坚受邀参会,并在“智算平台建设与应用实践”专题会上发表主题演讲,分享了天翼云在超大规模智算集群运维及管理方面的创新思路和实践经验。

迎接智算新挑战,天翼云亮相全球架构师峰会! 天翼云云网产品事业部研发专家 黄坚

大模型时代 超大规模智算集群运维面临新挑战

随着大模型风潮来袭,加快建设超大规模智算集群,已成为增强多元算力供给的重要措施。与传统云原生大规模场景相比,超大规模智算集群的管理复杂度和难度更高。黄坚表示,当前,在充分发挥超大规模智算集群的算力方面,整个行业还面临着诸多挑战:

首先,智算业务与底层算力高耦合。在基于transformer衍生出来的智算生态中,要求最大化使用底层算力,这就要求从业者既要懂算法,又要懂算力,同时需要具备结合算法算力的工程化思维,从算子优化、算子融合、并行计算等多个方向提升算力的使用效率。

其次,硬件无明确异常指标,定位难度大。虽然通过监控可以覆盖一些明显的软硬件问题,但更多类似于光模块故障等问题,需要综合光衰、温度、功耗等多个维度,并结合业务异常,才能实现准确定位。

再次,日常管理复杂度高。超大规模智算集群规模大、数量多,如何实现百万量级元器件的系统化、模块化、周期化管理,并与业务方进行有效协同,是运维的难点。

作为云服务国家队,天翼云加强核心技术自主研发,积极探索超大规模智算集群运维之道,不断升级产品和生态矩阵,为AI开发者提供“供得上、用得起、用得好”的智算服务。

实践与创新并举 国云底座赋能智算云生态建设

在平台层面 天翼云全新升级一体化计算加速平台“云骁”,“云骁”具备超大规模集群管理、运营和算力加速能力,可提供通智超一体化服务,集“异构计算+高速存储+无损网络+算力加速+高效运营”五大能力于一体,让智算更快、更稳。

在算力层面 天翼云加速推进多层次智算算力布局,打造万卡级超大规模智算中心,满足快速增长的智算算力需求。目前,天翼云上海临港国产万卡算力池已正式启用,这不仅是国内首/个投入正式运营的国产单池万卡液冷算力集群,也是业内领先的全国产化云智一体公共智算中心,创新性采用网络中置、算力分层的“魔方”型组网,实现了单一集群内万卡高速互联,满足万亿级参数大模型训练所需的多机多卡并行、高吞吐无损通信等需求。

未来,天翼云将持续坚持科技创新,深耕云智一体,不断夯实国云智算底座,为数字经济发展与数字中国建设注入澎湃动能。

点赞
收藏
评论区
推荐文章
天翼云:加速推进云网融合 共赢算力时代
3月17日,以“智算创见数实相融”为主题的2022浪潮信息生态伙伴大会在线上举行。会议汇聚工程院、科学院、顶尖学术机构、知名科技公司等各界代表,共同探讨数实相融趋势下的智算创新与实践。中国电信天翼云执行董事、总经理胡志强受邀出席并发表了题为《推进云网融合共赢算力时代》的主题演讲。2022年2月,我国“东数西算”工程正式全面启动,该工程将有助于实现东西部数
引燃算力新基建,天翼云亮相DCIC2024第13届数据中心产业发展大会!
近日,由中国通信企业协会主办的“第13届数据中心产业发展大会暨AIDC智能算力生态合作展览会”在北京顺利举行。现场展示了天翼云“AIDC”“紫金”“云骁”“息壤”等技术和平台能力;中国电信天翼云2023年智算资源池上海节点建设工程获得大会“算力基础设施高质量发展企业案例奖”;天翼云科技有限公司云网发展部副总经理李启荣围绕天翼云新一代智算中心建设方案与创新实践展开分享。
国云注智,聚力向新!天翼云打造五位一体智算云能力体系!
5月25日,第七届数字中国建设峰会期间,以“国云注智 聚力向新”为主题的2024智算云生态大会·智算云论坛在福州召开。天翼云全面升级产品及生态矩阵,打造“算力·平台·数据·模型·应用”五位一体的智算云能力体系。会上举行“开源大模型社区发布暨生态繁荣计划启动”、“息壤区域算力互联互通及调度管理服务计划暨息壤城市算力互联网点亮行动”等仪式,通过产业各方伙伴共创、共建、共推智算产业发展再上新台阶。作为云服务国家队,天翼云正以全新智算云布局,加快构建以科技创新为驱动的新质生产力,为数字经济发展与数字中国建设注入澎湃动能。
“翼”起向未来!天翼云亮相2024世界智能产业博览会!
6月20日,2024世界智能产业博览会在国家会展中心(天津)盛大开幕。中国电信天翼云以“国云注智,聚力向新”为主题,携智算云前沿成果亮相N24展区,展现智算云与人工智能深度融合下的未来科技。
智汇宁夏,共创未来!天翼云携手宁夏共建“中国算力之都”!
为充分发挥宁夏算力产业基础与优势,聚焦人工智能关键共性技术创新,推动人工智能技术与实体经济深度融合,搭建AI产业应用开发与生态合作平台,6月29日,2024首届算力之都开发者大会暨天翼云智算生态合作大会在宁夏隆重举行。大会以“沙海铸就人工智能,黄河汇集数字洪流”为主题,邀请全球顶尖院士和来自清华大学、北京邮电大学等高校的知名学者、10余家头部模型厂商、3000余名国内外AI开发者和行业精英汇聚一堂,共同探讨AI应用创新的前沿趋势和关键技术,展示AI技术在各个领域的应用成果,推动AI应用的落地和普及。
WAIC 2024盛大召开,天翼云以全栈智算能力赋能AI时代!
7月5日,2024世界人工智能大会期间,中国电信星辰人工智能生态论坛在上海世博中心启幕。论坛以“星辰注智,焕新领航”为主题,围绕人工智能技术发展趋势,分享中国电信与产业各界在人工智能领域的创新与实践。天翼云科技有限公司董事长、总经理胡志强出席,并发表演讲《云智一体国云焕新》。他表示,人工智能已成为新一轮科技革命和产业变革的核心驱动力量。天翼云坚持科技创新驱动高质量发展,以丰富的智算资源供给、强大的智算服务能力和开放的模型应用生态,为数字经济发展注入新动能。
荣誉再加码!2024可信云大会,天翼云载誉而归!
7月23日,由中国通信标准化协会主办,中国信息通信研究院(以下简称“中国信通院”)承办的2024可信云大会在北京成功召开。大会主论坛上,中国信通院携手天翼云共同发布《央国企云上数智实践指南(2024)》,天翼云科技有限公司助理总经理宫梅霞出席发布仪式;同时,天翼云还参加了《云网融合下智能算力网络应用发展白皮书——基于DPU的SRv6应用实践》《低空经济云发展研究报告》《大模型智算服务研究报告》等多个重磅仪式,通过多项可信云评估并斩获多项“最佳实践”奖。天翼云科技有限公司行业事业部总经理王晓东发表演讲,与业内伙伴共话云计算产业发展与未来趋势。
行业标准引领者!天翼云助推智算领域规范化发展!
7月24日,2024可信云大会召开期间,智算云服务论坛上,天翼云荣获中国信通院颁发的“智算工程平台能力要求标准参编证书”,代表了业界对天翼云在推动行业标准制定中所作贡献及成果的重要肯定,以及对天翼云技术创新水平的高度认可。会上,天翼云科技有限公司智算产品线资深技术专家瞿龙发表演讲,介绍了天翼云智算平台加速大模型应用方面的技术亮点与成功案例。
亮相2024 DPU&AI Networking创新大会,天翼云斩获两项大奖!
近日,以“智驱网络芯动未来”为主题的2024DPU&AINetworking创新大会在北京举办。大会表彰了在DPU与AI网络技术创新及实践应用中取得卓越成就的单位与项目,天翼云科技有限公司荣膺创新引擎奖、《紫金DPU算力卸载与网络加速应用》荣获实践先锋奖,技术创新实力以及应用实践成果再获行业认可。
解锁数据潜力,天翼云TeleDB为企业数智蝶变添力赋能!
近日,第15届中国数据库技术大会(DTCC2024)在北京召开。大会以“自研创新数智未来”为主题,重点围绕向量数据库与向量检索技术实践、数据治理与数据资产管理、云原生数据库开发与实践、特定场景下的数据库管理与优化、大数据平台建设等内容展开分享和探讨。天翼云数据库产品线首席技术官李跃森、天翼云资深研发专家胡彬参会,分享了天翼云在数据库领域的产品布局、技术创新与实践应用。
天翼云开发者社区
天翼云开发者社区
Lv1
天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。
文章
653
粉丝
14
获赞
40