从人工到自动化到AIOps再到ChatOps:大模型在运维领域的应用

京东云开发者
• 阅读 292

一、引言

在信息技术飞速发展的今天,运维工作已经从最初的人工操作,逐步演变为自动化、AIOps(人工智能运维)和ChatOps(通过聊天的方式去运维)。这些变革不仅提升了运维效率,还显著保障了系统的稳定性。特别是借助大模型,运维同学能够更加高效地完成工作,并应对复杂的运维挑战。本文将依次介绍这些概念,并探讨大模型在运维领域的具体应用。



二、运维的演变历程

1. 人工运维

  • 概念:人工运维是指通过人工手动执行各种运维任务,如服务器配置、日志分析、故障排除等。

  • 挑战:人工操作容易出错,效率低下,且无法快速响应突发事件。



从人工到自动化到AIOps再到ChatOps:大模型在运维领域的应用





2. 自动化运维

  • 概念:自动化运维通过编写脚本和使用工具来自动执行运维任务,减少人工干预。

  • 优势:提高效率,减少人为错误,能够快速重复执行任务。

  • 工具:Ansible、Puppet、Chef等。



从人工到自动化到AIOps再到ChatOps:大模型在运维领域的应用



3. AIOps(智能运维)

  • 概念:AIOps利用机器学习和大数据分析技术,自动检测、分析和解决运维问题。

  • 优势:能够处理海量数据,提前预测故障,自动化决策和响应。

  • 应用:异常检测、根因分析、自动化修复等。



从人工到自动化到AIOps再到ChatOps:大模型在运维领域的应用



4. ChatOps(通过聊天的方式去运维)

  • 概念:ChatOps通过将运维工具集成到聊天平台(如咚咚、微信)中,让运维同学通过聊天界面执行运维任务。

  • 优势:将运维自动化的能力通过聊天的方式提供给运维、开发等人员使用,使运维同学具有可以随时随地使用手机远程运维的能力。



从人工到自动化到AIOps再到ChatOps:大模型在运维领域的应用



三、大模型在运维领域的应用

大模型在运维领域的应用,能够进一步提升运维工作的智能化和自动化水平。以往,受限于自然语言处理(NLP)模型的限制,现有的机器学习模型在理解人类的问题和上下文方面存在较大挑战。这导致了当前的ChatOps应用主要依赖于预置的指令,通过设计好的NLP任务来完成一些运维工作。

借助大模型的强大自然语言理解能力,目前可以较好和方便地构建智能的运维应用。以下是几个结合大模型的运维场景,这些场景展示了大模型在提升运维工作智能化和自动化水平方面的潜力。

1. 运维智能助手

  • 问题:因为当前的机器人不够智能,运维同学需要24小时在线协助研发同学解决使用内部工具遇到的问题。

  • 解决方案:可以基于大模型构建RAG应用,使用运维同学沉淀的运维知识库和热门问题,使研发同学能自助的、快速的解决大部分问题。



从人工到自动化到AIOps再到ChatOps:大模型在运维领域的应用





2. 自动化问题诊断与修复

  • 问题:传统问题诊断需要人工介入,耗时且易出错。

  • 解决方案:大模型能够自动诊断系统问题,并提供修复建议或自动执行修复操作。



从人工到自动化到AIOps再到ChatOps:大模型在运维领域的应用





3. 智能日志分析

  • 问题:传统日志分析需要手动筛选和分析,效率低且容易遗漏关键信息。在AIOps产品中,我们已经构建了基于日志模版的智能日志分析,但在构建日志模版的过程中,还是依赖相关的运维专家经验去构建相关的运维模版。

  • 解决方案:大模型本身是通用领域的专家,借助上面构建的RAG的私域运维知识和他的通用经验,基于大模型构建一个运维日志监控专家,24小时审查关键日志,通过他可以自动解析海量日志,识别异常模式,并生成易于理解的报告。

  • 例子:在服务器日志中,大模型能够快速识别出潜在的安全威胁(如异常登录尝试),并提醒运维人员采取措施。



四、结论

稳定是运维部门的主要目标,但一台精密复杂的机器,难免在运行一段时间后出现故障,出现故障后,要求我们能依赖现有的监控、告警数据,通过AIOps平台或基于大模型的工具快速的,在这庞大复杂的系统中找到问题、定位问题并解决问题,这也是当前我们运维部门的目标1,5,15原则:1分钟发现故障,5分钟定位故障,15分钟解决故障。

从人工运维到自动化运维,再到AIOps和ChatOps,运维工作的智能化和自动化水平不断提升。借助大模型,运维同学能够更加高效地完成工作,保障系统的稳定性。通过智能日志分析、故障预测与预防、自动化问题诊断与修复,以及知识库与文档生成,大模型在运维领域展现出巨大的应用潜力。未来,随着大模型技术的不断发展,运维工作的智能化水平将进一步提升,为企业的信息系统保驾护航。

点赞
收藏
评论区
推荐文章
Tommy744 Tommy744
3年前
DevOps简介
DevOps是一个完整的面向IT运维的工作流,以IT自动化以及持续集成(CI)、持续部署(CD)为基础,来优化程式开发、测试、系统运维等所有环节。DevOps的概念DevOps一词的来自于Development和Operations的组合,突出重视软件开发人员和运维人员的沟通合作,通过自动化流程来使得软件构建、测试、发布更加快捷、频繁和可靠。
Wesley13 Wesley13
3年前
ECS主动运维2.0,体验升级,事半功倍
_摘要:_ 阿里云致力于提供更好用的运维体验,让您使用ECS的过程更透明、高效,并实现更加标准化、自动化的运维方式。基于主动运维2.0,您使用ECS云服务器的体验更加流畅,而且利用系统事件,不再依赖于工单联系客服,可以通过自助处理的方式响应主动运维实例重启,减少对系统可靠性和业务连续性的影响。   云服务器ECS(ElasticCompute
可莉 可莉
3年前
2020 DevOps流水线实践课程
!(https://oscimg.oschina.net/oscnet/413d404e8fb34407bde15c90d553ab77.png)我认为Jenkins是对我这些年运维经验的总结,起初我们运维同学都是编写脚本完成一些自动化的操作。而有了Jenkins我们可以将我们的运维经验与Jenkins设计理念融合完成自动化运
Stella981 Stella981
3年前
DevOps简介
DevOps是一个完整的面向IT运维的工作流,以IT自动化以及持续集成(CI)、持续部署(CD)为基础,来优化程式开发、测试、系统运维等所有环节。DevOps的概念DevOps一词的来自于Development和Operations的组合,突出重视软件开发人员和运维人员的沟通合作,通过自动化流程来使得软件构建、测试、发布更加快捷、频繁和
可莉 可莉
3年前
2020 企业级DevOps流水线实践课程
!(https://oscimg.oschina.net/oscnet/398cdd5d73544e19a7358c8b8cd807ae.png)我认为Jenkins是对我这些年运维经验的总结,起初我们运维同学都是编写脚本完成一些自动化的操作。而有了Jenkins我们可以将我们的运维经验与Jenkins设计理念融合完成自动化运
Stella981 Stella981
3年前
2020 DevOps流水线实践课程
!(https://oscimg.oschina.net/oscnet/413d404e8fb34407bde15c90d553ab77.png)我认为Jenkins是对我这些年运维经验的总结,起初我们运维同学都是编写脚本完成一些自动化的操作。而有了Jenkins我们可以将我们的运维经验与Jenkins设计理念融合完成自动化运
Stella981 Stella981
3年前
2020 企业级DevOps流水线实践课程
!(https://oscimg.oschina.net/oscnet/398cdd5d73544e19a7358c8b8cd807ae.png)我认为Jenkins是对我这些年运维经验的总结,起初我们运维同学都是编写脚本完成一些自动化的操作。而有了Jenkins我们可以将我们的运维经验与Jenkins设计理念融合完成自动化运
Stella981 Stella981
3年前
AIOps在美团的探索与实践——故障发现篇
!(https://oscimg.oschina.net/oscnet/up45fc0178edcbec3835316f2c637b1b3f793.JPEG)一、背景AIOps,最初的定义是AlgorithmITOperations,是利用运维算法来实现运维的自动化,最终走向无人化运维。随着技术成熟,逐步确定为Artificial
Stella981 Stella981
3年前
DevOps背景下的分合之事
DevOps倡导“谁开发,谁运维”和开发运维一体化。那么是不是简单地把开发和运维人员放在一起就完事了呢?01—“插队”的故事小明入职时是运维专员,原来隶属于运维部门,负责某业务线系统的应用维护工作。一旦系统的生产环境出现任何故障,或者业务人员在生产环境上有任何请求,都是由小明所在的运维部门先处理,处理不了的,再联系该系
京东云开发者 京东云开发者
10个月前
运维工作新时代:自主编码实现运维自动化的转型之旅
引言随着业务系统和底层中间件服务的复杂度不断增加,传统手工运维方式面临着诸多挑战和限制。人工编写运维脚本显得非常低效,同时手动执行运维操作存在着巨大风险。在此情况下,推动运维自动化成为运维人员必须落地实施的工作。运维同学如果可以有地方自主通过编码的方式,实