Kubernetes自定义调度器 — 初识调度框架

Prodan Labs
• 阅读 3609

Kubernetes自定义调度器 — 初识调度框架 Kubernetes 已经成为容器编排(Orchestration)平台的事实标准,它为容器化应用提供了简单且高效部署的方式、大规模可伸缩、资源调度等生命周期管理功能。kube-scheduler作为kubernetes的核心组件,它负责整个集群资源的调度功能,根据特定的调度算法或调度策略,将Pod调度到最优的Node节点,使集群的资源得到合理且充分的利用。

一般情况下,kube-scheduler提供的默认算法或编排的策略能够满足我们绝大多数的要求,但是在实际的项目中,需要考虑的问题就有很多了,我们会比kubernetes更加了解我们自己的应用,比如kubernetes无法对GPU资源调度的,这就需要我们来扩展调度器功能。

自定义调度器


纵观Kubernetes的发展历程,经过近几年的快速发展,在稳定性、扩展性和规模化方面都有了长足进步,核心组件日臻成熟。但实际上社区对于kube-scheduler的整体扩展规划设计是近两年才开始的。早期提升调度器扩展能力的方式主要有两种,一种是调度器扩展(Scheduler Extender), 另外一种是多调度器(Multiple schedulers)。

不管是Scheduler Extender还是Multiple schedulers,在性能和灵活性方面都有很大的问题,为了解决该困境,社区从Kubernetes 1.15版本开始, 作为alpha功能加入了新的调度框架 Kubernetes Scheduling Framework机制,可插拔架构使Kube-scheduler 扩展性更好、代码更简洁。

在进入Framework之前,我们再来了解下Kubernetes调度程序大概过程:

  1. Kube-Controller-Manager将spec.nodeName为空的Pod加入待调度的Pod列表
  2. Kube-scheduler watch Kube-apiserver,从调度队列中Pop出一个Pod,开始一个标准的调度周期
  3. 经过过滤阶段,根据Pod的属性(如:CPU/内存,nodeSelector/nodeAffinity),在该阶段计算出满足要求的节点候选列表
  4. 然后打分阶段,为每个候选节点给出一个分数,并挑选出得分最高的节点
  5. 最后kube-scheduler向kube-apiserver发送绑定调用,设置Pod的spec.nodeName属性以表示将该Pod调度到的节点
  6. kubelet通过kube-apiserver监听到kube-scheduler产生的绑定信息,获得Pod列表,下载Image并启动容器,然后由kubelet负责拉起Pod

Scheduling Framework调度框架


Scheduling Framework在原有的调度流程中, 定义了丰富扩展点接口,用户可以实现扩展点定义的接口来定义自己的调度逻辑,并将扩展注册到扩展点上,调度框架在执行调度工作流时,运行到相应的扩展点时,会调用用户注册的插件。

调度框架定义了一些扩展点,有些扩展点上的扩展可以更改调度程序的决策,有些扩展点上的扩展只是发送一个通知。每次调度一个Pod的过程分为两个阶段:调度周期(Scheduling Cycle)和绑定周期(Binding Cycle)。

调度周期为Pod选择一个节点,绑定周期将该决定应用于集群。调度周期和绑定周期一起被称为"调度上下文"(scheduling context)。调度过程和绑定过程遇到该Pod不可调度或存在内部错误,则中止调度或绑定周期,该Pod将返回队列并重试。

下图展示了调度框架中的调度上下文及其中的扩展点,一个扩展可以注册多个扩展点,以便可以执行更复杂的有状态的任务 Kubernetes自定义调度器 — 初识调度框架

scheduling cycle 是同步执行的,同一个时间只有一个 scheduling cycle,是线程安全的; binding cycle 是异步执行的,同一个时间中可能会有多个 binding cycle在运行,是线程不安全的。

调度周期(Scheduling Cycle)

QueueSort 对调度队列中的Pod进行排序,以决定先调度哪个Pod,本质上提供了一个Less(Pod1, Pod2)功能用于比较两个Pod谁更优先获得调度,同一时间点只能有一个QueueSort插件生效。

PreFilter 对Pod的信息进行预处理,或者检查一些集群或Pod必须满足的前提条件,只有当所有的PreFilter插件都返回success时,才能进入下一个阶段,如果返回了error,则调度过程终止。

Filter 用来过滤掉不满足Pod调度要求的节点,对于每一个节点,调度器将按顺序执行Filter扩展。为了提升效率,Filter的执行顺序可以被配置,以减少Filter策略执行的次数,如可以把NodeSelector的Filter放到第一个,从而过滤掉大量的节点。Node节点执行Filter策略是并发执行的,所以在同一调度周期中多次调用过滤器。

PostFilter 在1.19版本发布,主要是用于处理当找不到该Pod的可行节点时才调用,例如试图通过抢占其他Pod来使该Pod可调度。,Autoscale触发等行为。

PreScore 在1.19之前版本称为PostFilter,主要用于在Score之前进行一些信息生成即预评分,从而为Score插件使用提供可共享的状态。如果PreScore插件返回错误,则调度周期将中止。

Score 用于对已通过过滤阶段的节点进行打分,调度器将针对每一个节点调用Score扩展,评分结果是一个范围内的整数。在NormalizeScore阶段之后,调度器将会把每个Score扩展对具体某个节点的评分结果和该扩展的权重合并起来,作为最终评分结果。

NormalizeScore 用于对节点进行最终排序之前修改每个节点的评分分数,注册到该扩展点的扩展在被调用时,将获得同一个插件中的Score扩展的评分结果作为参数,调度框架每执行一次调度,都将调用所有插件中的一个NormalizeScore扩展一次。

Reserve 用于避免调度器在等待Pod与节点绑定的过程中调度新的Pod到节点上时,发生实际使用资源超出可用资源的情况,因为绑定Pod到节点上是异步发生的。实现Reserve扩展的插件有两种方法,分别是Reserve和Unreserve,每个Reserve插件的Reserve方法可能成功也可能失败;如果一个Reserve方法调用失败,则不会执行后续插件,并且认为Reserve阶段失败,触发Unreserve扩展。

Permit 用于阻止或者延迟Pod与节点的绑定。可以执行三种操作:

approve(批准):所有Permit插件批准Pod后,将其发送进行绑定。

deny(拒绝):如果任何Permit插件拒绝Pod,则将其返回到调度队列,触发Reserve插件中的Unreserve扩展。

wait(等待):如果一个permit扩展返回了wait,则Pod将保持在permit阶段,如超时,wait状态变成deny,Pod 将被放回到待调度队列,触发Reserve插件中的Unreserve扩展。

绑定周期(Binding Cycle)

PreBind 用于在Pod绑定之前执行某些逻辑,如将数据卷挂载到节点上,然后再允许Pod在此处运行。如插件返回错误,则Pod被拒绝并返回到调度队列。

Bind 用于将Pod绑定到节点。在所有PreBind插件完成之前,不会调用Bind插件。调度框架按照Bind扩展注册的顺序逐个调用Bind扩展,具体某个Bind扩展可以选择处理或者不处理该Pod,如果某个Bind扩展处理了该Pod与节点的绑定,余下的Bind扩展将被忽略。

PostBind 这是一个信息扩展点。成功绑定Pod后,将调用后PostBind插件。Bind周期到此结束,可以用来清理关联的资源。

实现自定义的调度插件


sig-scheduling小组为了更好的管理调度相关的Plugin,新建scheduler-plugins项目,用户可以直接基于这个项目来定义自己的插件。 https://github.com/kubernetes-sigs/scheduler-plugins 接下来我们以社区示例的Qos的插件来为例,简单开发一个Filter、PreScore的插件。

定义插件的对象和构造函数:

// Name is the name of the plugin used in the plugin registry and configurations.
const Name = "sample"

// Sort is a plugin that implements QoS class based sorting.
type sample struct{}

var _ framework.FilterPlugin = &sample{}
var _ framework.PreScorePlugin = &sample{}

// New initializes a new plugin and returns it.
func New(_ runtime.Object, _ framework.FrameworkHandle) (framework.Plugin, error) {
  return &sample{}, nil
}

实现对应插件的接口:


// Name returns name of the plugin.
func (pl *sample) Name() string {
  return Name
}
func (pl *sample) Filter(ctx context.Context, state *framework.CycleState, pod *v1.Pod, nodeInfo *framework.NodeInfo) *framework.Status {
  log.Printf("filter pod: %v, node: %v", pod.Name, nodeInfo)
  log.Println(state)
  // 排除没有cpu=true标签的节点
  if nodeInfo.Node().Labels["cpu"] != "true" {
    return framework.NewStatus(framework.Unschedulable, "Node: "+nodeInfo.Node().Name)
  }
  return framework.NewStatus(framework.Success, "Node: "+nodeInfo.Node().Name)
}
func (pl *sample)PreScore(ctx context.Context, state *framework.CycleState, pod *v1.Pod, nodes []*v1.Node) *framework.Status  {
  log.Println(nodes)
  return framework.NewStatus(framework.Success, "Node: "+pod.Name)
}

插件注册:

func main() {
  rand.Seed(time.Now().UnixNano())
  // Register custom plugins to the scheduler framework.
  // Later they can consist of scheduler profile(s) and hence
  // used by various kinds of workloads.
  command := app.NewSchedulerCommand(
    app.WithPlugin(plugins.Name, plugins.New),
  )
  if err := command.Execute(); err != nil {
    os.Exit(1)
  }
}

把编译源码并打包成容器镜像

FROM debian:stretch-slim
WORKDIR /
COPY app /usr/local/bin
CMD ["app"]

在kubernetes安装插件

kind: ClusterRole
apiVersion: rbac.authorization.k8s.io/v1
metadata:
name: sample-scheduler-clusterrole
rules:
- apiGroups:
    - ""
  resources:
    - endpoints
    - events
  verbs:
    - create
    - get
    - update
- apiGroups:
    - ""
  resources:
    - nodes
  verbs:
    - get
    - list
    - watch
- apiGroups:
    - ""
  resources:
    - pods
  verbs:
    - delete
    - get
    - list
    - watch
    - update
- apiGroups:
    - ""
  resources:
    - bindings
    - pods/binding
  verbs:
    - create
- apiGroups:
    - ""
  resources:
    - pods/status
  verbs:
    - patch
    - update
- apiGroups:
    - ""
  resources:
    - replicationcontrollers
    - services
  verbs:
    - get
    - list
    - watch
- apiGroups:
    - apps
    - extensions
  resources:
    - replicasets
  verbs:
    - get
    - list
    - watch
- apiGroups:
    - apps
  resources:
    - statefulsets
  verbs:
    - get
    - list
    - watch
- apiGroups:
    - policy
  resources:
    - poddisruptionbudgets
  verbs:
    - get
    - list
    - watch
- apiGroups:
    - ""
  resources:
    - persistentvolumeclaims
    - persistentvolumes
  verbs:
    - get
    - list
    - watch
- apiGroups:
    - ""
  resources:
    - configmaps
  verbs:
    - get
    - list
    - watch
- apiGroups:
    - "storage.k8s.io"
  resources:
    - storageclasses
    - csinodes
  verbs:
    - get
    - list
    - watch
- apiGroups:
    - "coordination.k8s.io"
  resources:
    - leases
  verbs:
    - create
    - get
    - list
    - update
- apiGroups:
    - "events.k8s.io"
  resources:
    - events
  verbs:
    - create
    - patch
    - update
---
apiVersion: v1
kind: ServiceAccount
metadata:
name: sample-scheduler-sa
namespace: kube-system
---
kind: ClusterRoleBinding
apiVersion: rbac.authorization.k8s.io/v1
metadata:
name: sample-scheduler-clusterrolebinding
namespace: kube-system
roleRef:
apiGroup: rbac.authorization.k8s.io
kind: ClusterRole
name: sample-scheduler-clusterrole
subjects:
- kind: ServiceAccount
name: sample-scheduler-sa
namespace: kube-system
---
apiVersion: v1
kind: ConfigMap
metadata:
name: scheduler-config
namespace: kube-system
data:
scheduler-config.yaml: |
  apiVersion: kubescheduler.config.k8s.io/v1beta1
  kind: KubeSchedulerConfiguration
  leaderElection:
    leaderElect: false
  clientConnection:
    kubeconfig: /kube-scheduler.kubeconfig
  profiles:
  - schedulerName: sample-scheduler
    plugins:
      filter:
        enabled:
        - name: sample
      preScore:
        enabled:
          - name: sample
        disabled:
          - name: "*"
---
apiVersion: apps/v1
kind: Deployment
metadata:
name: sample-scheduler
namespace: kube-system
labels:
  component: sample-scheduler
spec:
replicas: 1
selector:
  matchLabels:
    component: sample-scheduler
template:
  metadata:
    labels:
      component: sample-scheduler
  spec:
    serviceAccount: sample-scheduler-sa
    priorityClassName: system-cluster-critical
    volumes:
      - name: scheduler-config
        configMap:
          name: scheduler-config
    containers:
      - name: scheduler-ctrl
        image: sample-scheduler:stretch-slim
        imagePullPolicy: IfNotPresent
        args:
          - --config=/etc/kubernetes/scheduler-config.yaml
          - --v=3
        resources:
          requests:
            cpu: "50m"
        volumeMounts:
          - name: scheduler-config
            mountPath: /etc/kubernetes

运行日志: Kubernetes自定义调度器 — 初识调度框架

验证插件


测试的pod,schedulerName字段指定自定义调度器

apiVersion: apps/v1
kind: Deployment
metadata:
name: test-scheduler
spec:
replicas: 1
selector:
  matchLabels:
    app: test-scheduler
template:
  metadata:
    labels:
      app: test-scheduler
  spec:
    schedulerName: sample-scheduler
    containers:
    - image: docker.io/library/nginx:1.19.2-alpine
      imagePullPolicy: IfNotPresent
      name: nginx
      ports:
      - containerPort: 80

创建测试pod


root@ubuntu:~# kubectl create -f  test-deploy.yaml
deployment.apps/test-scheduler created
root@ubuntu:~# kubectl get po
NAME                             READY   STATUS    RESTARTS   AGE
test-scheduler-6645fd9f6-pfzkm   0/1     Pending   0          4s
root@ubuntu:~# kubectl describe pod test-scheduler-6645fd9f6-pfzkm 
Name:           test-scheduler-6645fd9f6-pfzkm
Namespace:      default
Priority:       0
Node:           <none>
Labels:         app=test-scheduler
                pod-template-hash=6645fd9f6
Annotations:    <none>
Status:         Pending
IP:             
IPs:            <none>
Controlled By:  ReplicaSet/test-scheduler-6645fd9f6
Containers:
  nginx:
    Image:        docker.io/library/nginx:1.19.2-alpine
    Port:         80/TCP
    Host Port:    0/TCP
    Environment:  <none>
    Mounts:
      /var/run/secrets/kubernetes.io/serviceaccount from default-token-jbdqf (ro)
Conditions:
  Type           Status
  PodScheduled   False 
Volumes:
  default-token-jbdqf:
    Type:        Secret (a volume populated by a Secret)
    SecretName:  default-token-jbdqf
    Optional:    false
QoS Class:       BestEffort
Node-Selectors:  <none>
Tolerations:     node.kubernetes.io/not-ready:NoExecute op=Exists for 360s
                 node.kubernetes.io/unreachable:NoExecute op=Exists for 360s
Events:
  Type     Reason            Age   From  Message
  ----     ------            ----  ----  -------
  Warning  FailedScheduling  36s         0/1 nodes are available: 1 Node: kube-master.
  Warning  FailedScheduling  36s         0/1 nodes are available: 1 Node: kube-master.

因为排除没有 cpu=true 标签的节点,故pod处于Pending状态,日志也会打印信息

I1011 15:14:35.015568     466 factory.go:445] "Unable to schedule pod; no fit; waiting" pod="default/test-scheduler-6645fd9f6-pfzkm" err="0/1 nodes are available: 1 Node: kube-master."

给节点增加标签


root@ubuntu:~# kubectl label nodes kube-master cpu=true
node/kube-master labeled
root@ubuntu:~# kubectl get nodes --show-labels 
NAME          STATUS   ROLES    AGE   VERSION   LABELS
kube-master   Ready    <none>   30d   v1.19.1   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,cpu=true,kubernetes.io/arch=amd64,kubernetes.io/hostname=kube-master,kubernetes.io/os=linux
root@ubuntu:~# kubectl get po
NAME                             READY   STATUS    RESTARTS   AGE
test-scheduler-6645fd9f6-pfzkm   1/1     Running   0          3m16s

Pod已经正常调度,处于running状态,同时自定义插件也输出对应的日志

I1011 15:17:45.635502     466 default_binder.go:51] Attempting to bind default/test-scheduler-6645fd9f6-pfzkm to kube-master
I1011 15:17:45.643123     466 eventhandlers.go:205] delete event for unscheduled pod default/test-scheduler-6645fd9f6-pfzkm
I1011 15:17:45.643204     466 eventhandlers.go:225] add event for scheduled pod default/test-scheduler-6645fd9f6-pfzkm 
I1011 15:17:45.645886     466 scheduler.go:597] "Successfully bound pod to node" pod="default/test-scheduler-6645fd9f6-pfzkm" node="kube-master" evaluatedNodes=1 feasibleNodes=1

小结


最近一直在研究Scheduling Framework框架,发现还是挺有意思的,后续有时间再更新吧。


感兴趣的读者可以关注下微信号 Kubernetes自定义调度器 — 初识调度框架

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Prodan Labs Prodan Labs
3年前
Kubernetes自定义调度器 — 初窥门径
通过上一篇文章对schedulerframework调度框架已经有了大致了解,根据我们的实际生产的一些问题(如计算服务没有被调度到实际CPU最优的节点)和需求,来实现一个简单的基于CPU指标的自定义调度器。自定义调度器通过kubernetes资源指标服务metricsserver来获取各节点的当前的资源情况,并进行打分,然后把Pod调度到分数最高的节
DevOpSec DevOpSec
2年前
kubernetes之pod重调度-descheduler
kubernetes之pod重调度descheduler1\.kubernetessigs/descheduler简介
Stella981 Stella981
3年前
Minikube之Win10单机部署
Kubernetes(k8s)是自动化容器操作的开源平台,基于这个平台,你可以进行容器部署,资源调度和集群扩容等操作。如果你曾经用过Docker部署容器,那么可以将Docker看成Kubernetes底层使用的组件,Kubernetes是Docker的上层封装,通过它可以很方便的进行Docker集群的管理。今天我们使用minikube在单机上进行Kubern
Stella981 Stella981
3年前
Dubbo 3.0 前瞻之对接 Kubernetes 原生服务
Kubernetes是当前全球最流行的容器服务平台,在Kubernetes集群中,Dubbo应用的部署方式往往需要借助第三方注册中心实现服务发现。Dubbo与Kubernetes的调度体系的结合,可以让原本需要管理两套平台的运维成本大大减低,而且Dubbo适配了Kubernetes原生服务也可以让框架本身更加融入云原生体系。基于D
Stella981 Stella981
3年前
Kubernetes 调度器实现初探
Kubernetes调度器Kubernetes是一个基于容器的分布式调度器,实现了自己的调度模块。在Kubernetes集群中,调度器作为一个独立模块通过pod运行。从几个方面介绍Kubernetes调度器。调度器工作方式Kubernetes中的调度器,是作为单独组件运行,一般运行在Master中,和Master数量保持
Stella981 Stella981
3年前
Serverless Kubernetes 入门:对 Kubernetes 做减法
作者|贤维 阿里巴巴高级技术专家导读:ServerlessKubernetes是阿里云容器服务团队对未来Kubernetes演进方向的一种探索,通过对Kubernetes做减法,降低运维管理负担,简化集群管理,让Kubernetes从复杂到简单。背景Kubernetes作为通用的容器编排系统,承载了广泛的
Stella981 Stella981
3年前
Android蓝牙连接汽车OBD设备
//设备连接public class BluetoothConnect implements Runnable {    private static final UUID CONNECT_UUID  UUID.fromString("0000110100001000800000805F9B34FB");
Crane-scheduler:基于真实负载进行调度
作者邱天,腾讯云高级工程师,负责腾讯云TKE动态调度器与重调度器产品。背景原生kubernetes调度器只能基于资源的resourcerequest进行调度,然而Pod的真实资源使用率,往往与其所申请资源的request/limit差异很大,这直接导致了集群负载不均的问题:1.集群中的部分节点,资源的真实使用率远低于resourc
Crane-scheduler:基于真实负载进行调度
作者邱天,腾讯云高级工程师,负责腾讯云TKE动态调度器与重调度器产品。背景原生kubernetes调度器只能基于资源的resourcerequest进行调度,然而Pod的真实资源使用率,往往与其所申请资源的request/limit差异很大,这直接导致了集群负载不均的问题:1.集群中的部分节点,资源的真实使用率远低于resourcerequest,却没有被调度更多的Pod,这造成了比较大的资源浪费;2.而集群中的另外一些节点,其资源的真实使用率事实上已经过载,却无法为调