近期,由天翼云研发二部云终端基础平台团队组成的“翼起飞”战队,在2022 CCF国际AIOps挑战赛中,以第三名的成绩强势晋级决赛,并将于8月13日参加最终的决赛答辩,作为唯一一支进入决赛的运营商队伍,此次晋级意味着天翼云的智能运维能力已处于业内领先水平。
国际AIOps挑战赛由清华大学联合中国计算机学会(CCF)共同发起,是智能运维领域的国际顶尖赛事,备受全球关注。今年,挑战赛以“微服务架构电商系统下故障识别和分类”为赛题,吸引了海内外300多支队伍参加,包括来自上海交通大学、华中科技大学近千名运维领域和AI领域的高手参赛。
此次赛题设计源于AIOps的核心场景——故障快速发现与诊断,比赛数据基于微服务架构的模拟电商系统,要求参赛选手在云环境下完成算法模型调优、线上评测等操作。
“翼起飞”战队成员一直深耕于云终端底层平台的研发工作,同时在云平台运维中积极践行DevOps及AIOps等理念,在自动化、智能化运维方面积累了丰富经验。
此次参赛是天翼云“翼起飞”战队针对比赛多模态数据,创新设计了基于多模态数据协同的异常检测算法,在复赛中一举夺得第三名的好成绩并进入决赛。
就具体赛题而言,本次比赛在测评阶段仿照生产环境监控数据的获取和检测模式,通过订阅kafka推送的实时监控数据流,要求选手自行设计快速和高鲁棒性的异常检测算法和故障分类算法,实现准确、高效、通用的故障检测和故障分类。
一方面,主办方提供了海量多模态监控数据,包括应用服务的动态拓扑、实时调用链数据、实时业务黄金指标、性能指标(来自于容器、操作系统和JVM等)和日志,其中指标名称与指标所在对象的组合约有5000多种,每天的数据约有6G,与实际运维场景的数据量接近,同时指标数据每天有将近800万行,日志和调用链每天的数据量各有上千万行,进行实时异常检测难度极大。
部分指标和日志数据进行可视化后的样例图
另一方面,赛事组织方在短时间内集中组织连续多天的实时测评,最后根据各参赛队伍提交的结果,对故障检测延迟、故障检测准确率、检测召回率、定位准确率和分类准确率进行综合评分,这需要选手对算法方案持续进行快速迭代优化。
对此,“翼起飞”战队提出了一种多模态数据协同的检测模型,并采用了无监督和有监督结合的算法体系,结合优秀的代码工程实践以及多年云平台建设和运维经验,实现了故障快速发现与诊断,取得了卓越的实际效果,充分践行了“知识+数据+算法+算力”的AI 3.0理念,在海内外参赛选手中脱颖而出。
此次参赛推动了天翼云与业界优质研发团队及学术机构的切磋交流,同时也展示了天翼云多年的云平台建设和运维成果。基于此次赛事所创新设计的多模态监控数据分析和异常检测算法,也将应用到未来超大规模云平台管理和运维实践中。
对于决赛,“翼起飞”战队充满信心,将与赛事选手共推AIOps的落地应用,让先进的数字技术与方案早日普惠大众。