【前沿技术探索与应用赛道】借助京东AI言犀提升Kubernetes集群巡检的效率和准确性

京东云开发者
• 阅读 10

介绍

目前k8s-cluster-inspector组件可以自动化完成Kubernetes集群巡检,并在巡检结果中给出当前集群存在的问题,问题分级,问题类型,问题解决方法。

示例巡检数据结构如下:



{
       "name": "colocation-webhook-role",
       "namespace": "archimedes",
       "kind": "Role",
       "message": ["CanDeleteResources"],
       "issueCategory": ["Failed to pull image:WorkLoad"],
       "normal": false,
       "harmRank": ["CanDeleteResources:高危"],
       "repairMessages": ["CanDeleteResources:rbac中存在删除用户的风险,修复:在role,clusterrole增加标签:kubernetes.io/bootstrapping='rbac-defaults'"]
}

可见,其结果在一般的靠人力的情况下,对于问题的答案有一定限制。最终可能导致用户对结果不信任或者结果无法在可生产的环境中验证。

我们在借助AI工具,对于问题答案使用AI进行回答。将其结果回填到以上的巡检数据后,示例结果如下:

{
       "name": "colocation-webhook-role",
       "namespace": "archimedes",
       "kind": "Role",
       "message": ["CanDeleteResources"],
       "issueCategory": ["Failed to pull image:WorkLoad"],
       "normal": false,
       "harmRank": ["CanDeleteResources:高危"],
       "repairMessages": ["CanDeleteResources:集群中遇到镜像拉取报错401,通常是因为镜像仓库需要认证。解决方法如下:

1. **创建镜像拉取秘密**:在Kubernetes中创建一个Secret对象,用于存储镜像仓库的用户名和密码。
   ```yaml
   kubectl create secret docker-registry regcred --docker-server=<your-registry-server> --docker-username=<your-name> --docker-password=<your-pword> --docker-email=<your-email>
   ```

2. **在Pod或Deployment中引用Secret**:在Pod或Deployment的配置文件中,通过`imagePullSecrets`字段引用上述创建的Secret。
   ```yaml
   apiVersion: v1
   kind: Pod
   metadata:
     name: private-reg
   spec:
     containers:
     - name: private-reg-container
       image: <your-private-image>
     imagePullSecrets:
     - name: regcred
   ```

3. **应用配置**:更新或创建Pod/Deployment。
   ```bash
   kubectl apply -f your-pod-or-deployment.yaml
   ```

这样,Kubernetes在拉取镜像时会使用指定的认证信息,避免401错误。"]}

可见数据结果有较为明显的改进。并且借助AI工具,可以使得答案具有较高的丰富度和专业性。增加产品力。增强用户体验。

系统流程

主要流程区分:

  1. 执行巡检模版

按照用户声明的巡检模版指令执行巡检

  1. 开始巡检

开始巡检执行,该过程与Kubernetes集群交互

  1. 渲染巡检结果

将巡检结果进行渲染,渲染过程中会调用AI接口,分装提示词,组装steam需要的上下文,将集群问题给到AI,并获取AI回答的结果,补充到结果集中。

  1. 上报巡检结果

最终将巡检结果上报到用户指定的OSS存储服务器或者本地。

【前沿技术探索与应用赛道】借助京东AI言犀提升Kubernetes集群巡检的效率和准确性

provider 设计

在流程中中,AI provider设计目的是将AI 作为provider进行设计,可以支持多个AI提供方。每个AI提供方只需要实现调用方式即可。这在对外交付时,极大的提高了灵活性。

点赞
收藏
评论区
推荐文章
Wesley13 Wesley13
3年前
SLS机器学习最佳实践:时序异常检测
在SLS平台可以使用机器学习函数进行相关的时序异常检测,具体的相关函数可以使用如下函数进行异常检测,帮助用户提高巡检和分析的效率,具体的函数列表如下,具体的地址如下:https://help.aliyun.com/document\_detail/93210.html(https://www.oschina.net/action/GoToLink?url
Stella981 Stella981
3年前
Minikube之Win10单机部署
Kubernetes(k8s)是自动化容器操作的开源平台,基于这个平台,你可以进行容器部署,资源调度和集群扩容等操作。如果你曾经用过Docker部署容器,那么可以将Docker看成Kubernetes底层使用的组件,Kubernetes是Docker的上层封装,通过它可以很方便的进行Docker集群的管理。今天我们使用minikube在单机上进行Kubern
Stella981 Stella981
3年前
K8s——Ingress
在Kubernetes中,服务和Pod的IP地址仅可以在集群网络内部使用,对于集群外的应用是不可见的。为了使外部的应用能够访问集群内的服务,在Kubernetes中目前提供了以下几种方案:1.NodePort2.LoadBalancer3.IngressNodePort,简单来说,就是通过service这种资源对象,为后端
Stella981 Stella981
3年前
Ambari在离线环境中安装Hadoop集群
(WJW)Ambari在离线环境中安装Hadoop集群    如果手工安装Hadoop集群,在管理和后继部署中,越来越多的问题不断出现,主要如下:各集群节点的配置同步新应用的部署:比如为集群添加hbase应用,需要很细心复杂的配置才能完成,而且要是操作错误,还可能导致正常的集
Stella981 Stella981
3年前
KubeSphere 开源 KubeEye:Kubernetes 集群自动巡检工具
!(https://oscimg.oschina.net/oscnet/5a5eb0f686e44f0bbfc952ccd3c61651.png)为什么开源KubeEyeKubernetes作为容器编排的事实标准,虽然架构优雅功能也非常强大,但是Kubernetes在日常运行过程中总会有一些
Stella981 Stella981
3年前
Dubbo 3.0 前瞻之对接 Kubernetes 原生服务
Kubernetes是当前全球最流行的容器服务平台,在Kubernetes集群中,Dubbo应用的部署方式往往需要借助第三方注册中心实现服务发现。Dubbo与Kubernetes的调度体系的结合,可以让原本需要管理两套平台的运维成本大大减低,而且Dubbo适配了Kubernetes原生服务也可以让框架本身更加融入云原生体系。基于D
Wesley13 Wesley13
3年前
K8S知道,K9S呢?
k9s是用于管理Kubernetes集群的CLI。通过封装kubectl功能,k9s可以让开发者快速查看并解决运行Kubernetes时的日常问题。部分特性跟踪在Kubernetes集群运行的资源的实时活动处理Kubernetes标准资源和自定义资源跟踪与资源相关联的
Wesley13 Wesley13
3年前
oracle自动巡检脚本生成html报告
一、前言1、由于每月月底都需要对一些oracle数据库环境进行一些简单的巡检,而通过运行一条条语句,并依依去截图保存到word文档中效率低下,所以这里我就将手工巡检过程编写成shell脚本来提高巡检效率,同时也免去了截图照片图片不清晰的问题。2、脚本简单容易二次编辑,本文仅提供简单巡检的事项,如数据表空间是否自动扩展、是否开启归档等,
Stella981 Stella981
3年前
Linux 的shell脚本的分享,运用了多个不同的方法,实现使用脚本批量巡检服务器,非常有借鉴作用
1、今天分享一个以前坐项目使用过的巡检脚本,是使用bashshell去编写的,对于经常使用shell脚本去完成日常巡检的同行,非常有借鉴作用;2、脚本使用的一些变量以及模块都很有用,如果是初学习shell的脚本使用,参考这个脚本,绝对能让你快速的提升,具体代码如下:!/bin/bash
Grafana无法启动修复解决
某项目的Grafana服务因Mysql漏洞修复导致无法正常启动,当天巡检人员在尝试一些方法后,问题依然存在。在了解了事情的背景后,……