Kubernetes 探针详解!

Stella981
• 阅读 605

Kubernetes 探针详解! 你填了吗?10人将获赠CNCF商店$100美元礼券!

来参与2020年CNCF中国云原生调查

Kubernetes 探针详解!

问卷链接(https://www.wjx.cn/jq/97146486.aspx)


Kubernetes 探针详解!

配置 readiness、liveness 和 startup 探针可以处理不健康的 Pod,本文介绍了三种类型的探针、最佳实践和有关工具,以检测可能存在的配置问题。

作者:Yitaek Hwang

翻译:Bach(才云)

校对:木子(才云)

分布式系统和微服务体系结构的挑战之一是自动检测不正常的应用程序,并将请求(request)重新路由到其他可用系统,恢复损坏的组件。健康检查是应对该挑战的一种可靠方法。使用 Kubernetes,可以通过探针配置运行状况检查,以确定每个 Pod 的状态。

默认情况下,Kubernetes 会观察 Pod 生命周期,并在容器从挂起(pending)状态转移到成功(succeeded)状态时,将流量路由到 Pod。Kubelet 会监控崩溃的应用程序,并重新启动 Pod 进行恢复。许多开发人员认为这样的基本设置就足够了,尤其是当 Pod 内的应用程序还配置了守护进程管理器(例如 Node.js 的 PM2)时。

但有一种意外情况,当 Kubernetes 在所有容器启动后,认为 Pod 是健康且可以接受请求时,但应用程序在实际准备就绪之前就已收到流量,比如应用程序在处理应用程序逻辑之前,初始化了一些状态,建立了数据库连接或加载了数据。当 Deployment 开始扩展时,未就绪的应用程序会接收流量并返回 500 错误,这造成了应用程序实际的准备就绪与 Kubernetes 认为的准备就绪之间的时间间隔问题

同样的,这也是 Kubernetes 探针用来定义容器何时准备接受流量,以及何时重新启动容器的方式。从 Kubernetes v1.16 开始,已经支持三种类型的探针。在本文中将介绍这三种类型的探针、最佳实践和有关工具,以检测可能存在的配置问题。

K8sMeetup

Kubernetes 探针

Kubernetes 版本小于 v1.15 时支持 readiness 和 liveness 探针,在 v1.16 中添加了 startup 探针作为 Alpha 功能,并在 v1.18 中升级为 Beta。

这三种探针均具有以下参数:

  • initialDelaySeconds :启动 liveness、readiness 探针前要等待的秒数。

  • periodSeconds :检查探针的频率。

  • timeoutSeconds :将探针标记为超时(未通过运行状况检查)之前的秒数。

  • successThreshold :探针需要通过的最小连续成功检查数量。

  • failureThreshold :将探针标记为失败之前的重试次数。对于 liveness 探针,这将导致 Pod 重新启动。对于 readiness 探针,将标记 Pod 为未就绪(unready)。

Readiness 探针

readiness 探针可以让 kubelet 知道应用程序何时准备接受新流量。 如果应用程序在进程启动后需要一些时间来初始化状态,要配置 readiness 探针让 Kubernetes 在发送新流量之前进行等待。readiness 探针的主要作用是将流量引导至 service 后的 deployment。

Kubernetes 探针详解!

关于 readiness 探针有一点很重要,它会在容器的整个生命周期中运行。 这意味着 readiness 探针不仅会在启动时运行,而且还会在 Pod 运行期间反复运行。 这是为了处理应用程序暂时不可用的情况(比如加载大量数据、等待外部连接时)。 在这种情况下,我们不一定要杀死应用程序,可以等待它恢复。 readiness 探针可用于检测这种情况,并在 Pod 再次通过 readiness 检查后,将流量发送到这些 Pod。

Liveness 探针

liveness 探针用于重新启动不健康的容器。 Kubelet 会定期地 ping liveness 探针,以确定健康状况,并在 liveness 检查不通过的情况下杀死 Pod。liveness 检查可以帮助应用程序从死锁中恢复。如果不进行 liveness 检查,Kubernetes 会认为死锁中的 Pod 处于健康状态,因为从 Kubernetes 的角度来看,Pod 的子进程仍在运行,是健康的。通过配置 liveness 探针,kubelet 可以检测到应用程序处于不健康状态,并重新启动 Pod 以恢复可用性。

Kubernetes 探针详解!

Startup 探针

startup 探针与 readiness 探针类似,但它仅在启动时执行,能针对启动缓慢的容器或在初始化过程中有不可预测行为的应用程序进行优化。 借助 readiness 探针,我们可以配置  initialDelaySeconds  来确定 readiness 探测在准备就绪前要等待多长时间。

假设有一个偶尔需要下载大量数据的应用程序,由于 initialDelaySeconds 是一个静态数字,因此该应用程序即使不需要那么长的初始化等待时间,我们也必须设置最保守的等待时间。通过 startup 探针,我们可以配置 failureThresholdperiodSeconds 来解决该问题,例如设置 failureThreshold 为 15,periodSeconds 为 5,这意味着应用程序在失败之前会有 10x5=75s 的启动时间。

K8sMeetup

配置探针

现在我们了解了不同类型的探针,下面是配置每种探针的三种不同方式。

HTTP

kubelet 将 HTTP GET 请求发送到 endpoint,并检查 2xx 或 3xx 响应。我们可以重复使用现有的 HTTP endpoint 或设置轻量级 HTTP 服务器以进行探测(例如,具有  /healthz  endpoint 的 Express server)。HTTP 探针包含其他额外参数:

  • host :要连接的主机名(默认值:pod 的 IP)。

  • scheme :HTTP(默认)或 HTTPS。

  • path :HTTP/S 服务器上的路径 。

  • httpHeaders :自定义标头(如果需要标头用于身份验证、CORS 设置等) 。

  • port :访问服务器的端口名称或端口号。

Kubernetes 探针详解!

TCP

如果仅需要检查是否可以建立 TCP 连接,则可以指定 TCP 探针。如果建立 TCP 连接,则将 Pod 标记为运行状况良好。对于不适合使用 HTTP 探针的 gRPC 或 FTP 服务器,TCP 探针可能会有用。

Kubernetes 探针详解!

Command

可以将探针配置为运行 shell 命令。如果命令返回的退出代码为 0,则检查通过,否则 Pod 将被标记为不健康。如果不希望公开 HTTP 服务器与端口,或者希望通过命令检查初始化步骤(例如,检查是否已创建配置文件、运行 CLI 命令),这种类型的探针会很有用。

Kubernetes 探针详解!

K8sMeetup

最佳实践

虽然说探针的确切参数和使用方法取决于应用程序,但也有一些常用的最佳实践:

  • 对于较旧的(≤v1.15)Kubernetes 集群,使用具有初始延迟的 readiness 探针来处理容器启动阶段。

  • 对于较新的(≥v1.16)Kubernetes 集群,如果是具有不可预测或可变启动时间的应用程序应使用 startup 探针。 startup 探针与 readiness 和 liveness 探针共享相同的 endpoint(例如  /healthz ),但能将  failureThreshold  设置得比其他探针更高,以拥有更长的启动时间,相对于 liveness 和 readiness 而言,设置的失败时间会更合理。

  • 如果 readiness 探针不用于其他信号目的,readiness 和 liveness 探针可以共享相同的 endpoint,但如果只有一个 Pod(也就是使用 VPA)时,设置 readiness 探针来解决启动行为,使用 liveness 探针来确定运行状况。这种情况下,标记 Pod 不健康意味着停机时间。

  • readiness 检查可以用各种方式来发出系统故障的信号。 例如,当应用程序失去与数据库的连接时,可以使用 readiness 探针暂时阻止新请求并允许系统重新连接。它还可以将繁忙的 Pod 标记为未准备,将工作负载平衡到其他 Pod。

简而言之,定义明确的探针通常会带来更好的弹性和可用性。确保观察启动时间和系统行为,在应用程序更改时调整探针设置。

K8sMeetup

工具

最后,鉴于 Kubernetes 探针的重要性,我们可以使用 Kubernetes 资源分析工具来检测缺失的探针。这些工具可以在现有集群上运行,也可以置入 CI/CD 流程中,可以在没有正确配置资源的情况下自动拒绝工作负载。

  • polaris :一个具有仪表板的资源分析工具,也可以用作验证 webhook 或 CLI 工具。

  • kube-score :一个静态代码分析工具,可用于 Helm、Kustomize 和标准 YAML 文件。

  • popeye :只读的实用工具,用于扫描 Kubernetes 集群并报告配置中的潜在问题。

原文链接: https://medium.com/dev-genius/understanding-kubernetes-probes-5daaff67599a

Kubernetes 探针详解!

推荐阅读:

Kubernetes 探针详解!

Kubernetes 探针详解!

Kubernetes 探针详解!

Kubernetes 探针详解!

文章转载自K8sMeetup社区。点击这里阅读原文了解更多

Kubernetes 探针详解!

扫描二维码联系我们!


CNCF (Cloud Native Computing Foundation)成立于2015年12月,隶属于Linux  Foundation,是非营利性组织。

_CNCF云原生计算基金会)致力于培育和维护一个厂商中立的开源生态系统,来推广云原生技术。我们通过将最前沿的模式民主化,让这些创新为大众所用。请长按以下二维码进行关注。_

Kubernetes 探针详解!

本文分享自微信公众号 - CNCF(lf_cncf)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
3个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
3年前
Opencv中Mat矩阵相乘——点乘、dot、mul运算详解
Opencv中Mat矩阵相乘——点乘、dot、mul运算详解2016年09月02日00:00:36 \牧野(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fme.csdn.net%2Fdcrmg) 阅读数:59593
Stella981 Stella981
3年前
KVM调整cpu和内存
一.修改kvm虚拟机的配置1、virsheditcentos7找到“memory”和“vcpu”标签,将<namecentos7</name<uuid2220a6d1a36a4fbb8523e078b3dfe795</uuid
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
9个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这