一不小心晋级“CCF国际AIOps挑战赛”决赛

近期，由天翼云研发二部云终端基础平台团队组成的“翼起飞”战队，在2022 CCF国际AIOps挑战赛中，以第三名的成绩强势晋级决赛，并将于8月13日参加最终的决赛答辩，作为唯一一支进入决赛的运营商队伍，此次晋级意味着天翼云的智能运维能力已处于业内领先水平。

国际AIOps挑战赛由清华大学联合中国计算机学会（CCF）共同发起，是智能运维领域的国际顶尖赛事，备受全球关注。今年，挑战赛以“微服务架构电商系统下故障识别和分类”为赛题，吸引了海内外300多支队伍参加，包括来自上海交通大学、华中科技大学近千名运维领域和AI领域的高手参赛。

此次赛题设计源于AIOps的核心场景——故障快速发现与诊断，比赛数据基于微服务架构的模拟电商系统，要求参赛选手在云环境下完成算法模型调优、线上评测等操作。

“翼起飞”战队成员一直深耕于云终端底层平台的研发工作，同时在云平台运维中积极践行DevOps及AIOps等理念，在自动化、智能化运维方面积累了丰富经验。

此次参赛是天翼云“翼起飞”战队针对比赛多模态数据，创新设计了基于多模态数据协同的异常检测算法，在复赛中一举夺得第三名的好成绩并进入决赛。

就具体赛题而言，本次比赛在测评阶段仿照生产环境监控数据的获取和检测模式，通过订阅kafka推送的实时监控数据流，要求选手自行设计快速和高鲁棒性的异常检测算法和故障分类算法，实现准确、高效、通用的故障检测和故障分类。

一方面，主办方提供了海量多模态监控数据，包括应用服务的动态拓扑、实时调用链数据、实时业务黄金指标、性能指标（来自于容器、操作系统和JVM等）和日志，其中指标名称与指标所在对象的组合约有5000多种，每天的数据约有6G，与实际运维场景的数据量接近，同时指标数据每天有将近800万行，日志和调用链每天的数据量各有上千万行，进行实时异常检测难度极大。

一不小心晋级“CCF国际AIOps挑战赛”决赛部分指标和日志数据进行可视化后的样例图

另一方面，赛事组织方在短时间内集中组织连续多天的实时测评，最后根据各参赛队伍提交的结果，对故障检测延迟、故障检测准确率、检测召回率、定位准确率和分类准确率进行综合评分，这需要选手对算法方案持续进行快速迭代优化。

对此，“翼起飞”战队提出了一种多模态数据协同的检测模型，并采用了无监督和有监督结合的算法体系，结合优秀的代码工程实践以及多年云平台建设和运维经验，实现了故障快速发现与诊断，取得了卓越的实际效果，充分践行了“知识+数据+算法+算力”的AI 3.0理念，在海内外参赛选手中脱颖而出。

此次参赛推动了天翼云与业界优质研发团队及学术机构的切磋交流，同时也展示了天翼云多年的云平台建设和运维成果。基于此次赛事所创新设计的多模态监控数据分析和异常检测算法，也将应用到未来超大规模云平台管理和运维实践中。

对于决赛，“翼起飞”战队充满信心，将与赛事选手共推AIOps的落地应用，让先进的数字技术与方案早日普惠大众。

Java 并发 - Longadder源码分析

手撕Java 条件队列Condition源码系列

热门文章