HPC中常见的调度器介绍

天翼云开发者社区
• 阅读 305

本文分享自天翼云开发者社区《HPC中常见的调度器介绍》 作者:土豆炒肉丝

在高性能计算(HPC)环境中,调度器是负责管理和分配计算资源(如计算节点、处理器核心、内存等)给待执行任务的重要组件。不同的HPC系统可能使用不同的调度器,根据系统架构和用户需求的不同,调度器有各自的特点和区别。以下是一些常见的HPC调度器及其区别:

1.SLURM(Simple Linux Utility for Resource Management): SLURM是一个开源的HPC调度器,广泛应用于高校、超算中心等HPC集群。它提供了丰富的功能,包括作业提交、资源分配、优先级管理、任务监控等。SLURM支持多种作业调度策略,如先进先出(FIFO)、公平共享(Fairshare)、优先级调度等。它还支持作业数组,可以一次性提交多个相似的任务。

2、PBS(Portable Batch System): PBS是另一个流行的HPC调度器,有商业版本PBS Professional和开源版本Open PBS。它具有强大的灵活性和可扩展性,适用于各种规模的HPC环境。PBS支持多种调度策略,如最短作业优先(SJF)、先来先服务(FCFS)、优先级调度等。PBS还可以根据用户和组织的需求进行自定义配置。

3.LSF(Load Sharing Facility): LSF是一种商业化的HPC调度器,由IBM开发。它在大规模集群中表现出色,支持多种调度算法,如公平调度、资源回收、优先级调度等。LSF还提供了高度可定制的作业调度规则和策略。

4.Torque/Maui: Torque是一个开源的HPC调度器,Torque源于PBS的分支版本,用于管理和调度计算资源。Maui是一个与Torque配套的作业调度器,它提供了更高级的作业调度功能。Torque/Maui组合被广泛用于中小规模的HPC集群。

5.Grid Engine: Grid Engine是一种开源的HPC调度器,可以在分布式计算环境中进行资源管理和作业调度。Grid Engine支持多种调度策略和作业优先级管理。Grid Engine调度器最早由SUN公司开发,Oracle将其收购后,出现了多个分支版本,如Univa Grid Engine、Oracle Grid Engine、Open Grid Schedule等。

这些HPC调度器之间的区别主要体现在以下方面:

1.开源VS商业:一些调度器是开源的,免费使用,如SLURM、Open PBS和Torque,而其他调度器是商业化的,需要购买授权,如LSF。

2.功能和灵活性:不同的调度器提供不同的功能和灵活性,某些调度器可能更适合特定类型的HPC环境或应用场景,如PBS在汽车行业大量应用,LSF对EDA软件支持较好,在电子芯片设计行业应用广泛。

3.性能和可扩展性:调度器的性能和可扩展性可能因集群规模和资源管理复杂性而有所不同。

4.配置和管理:调度器的配置和管理过程也可能有所不同,一些调度器可能需要更多的手动设置和维护。

在选择HPC调度器时,需要根据自己的HPC环境和需求来做出合适的选择。无论使用哪种调度器,良好的作业调度和资源管理都是高性能计算集群运行的关键因素。

点赞
收藏
评论区
推荐文章
Prodan Labs Prodan Labs
3年前
Kubernetes自定义调度器 — 初窥门径
通过上一篇文章对schedulerframework调度框架已经有了大致了解,根据我们的实际生产的一些问题(如计算服务没有被调度到实际CPU最优的节点)和需求,来实现一个简单的基于CPU指标的自定义调度器。自定义调度器通过kubernetes资源指标服务metricsserver来获取各节点的当前的资源情况,并进行打分,然后把Pod调度到分数最高的节
Stella981 Stella981
3年前
Quartz框架应用(1)
在你使用调度器之前,需要借助一些具体的例子去理解。你可以使用SchedulerFactory类来达到程序调度的目的。有一些Quartz框架的用户可能会将factory的实例存储在JNDI中,其他人为了便于举例子就直接使用factory的实例(比如下文的代码片段)。一旦调度器实例化后,它就能够启动,等待执行和关闭。需要注意的是一旦调度器调用了shutd
Stella981 Stella981
3年前
Kubernetes 调度器实现初探
Kubernetes调度器Kubernetes是一个基于容器的分布式调度器,实现了自己的调度模块。在Kubernetes集群中,调度器作为一个独立模块通过pod运行。从几个方面介绍Kubernetes调度器。调度器工作方式Kubernetes中的调度器,是作为单独组件运行,一般运行在Master中,和Master数量保持
Stella981 Stella981
3年前
Schedulis 0.6.0 版本发布
Schedulis0.6.0版本发布Schedulis0.6.0_Schedulis是一个基于LinkedIn的开源项目Azkaban开发的工作流任务调度系统。该调度系统具备高性能,高可用(去中心化多调度中心和多执行器)和多租户资源隔离等金融级特性;现已被集成到数据应用开发
Stella981 Stella981
3年前
LVS调度算法
内核中的连接调度算法IPVS在内核中的负载均衡调度是以连接为粒度的。在HTTP协议(非持久中),每个对象从WEB服务器上获取都需要建立一个TCP连接,同一用户的不同请求会被调度到不同服务器上,所以这种细粒度的调度在一定程度上可以避免单个用户访问的突发性引起服务器间的负载不平衡。在内核中的连接调度算法上,IPVS已实现了以下八种调
HPC的基本概念
HPC(HighPerformanceComputing)是一种高性能计算技术,它利用大规模并行处理器集群或超级计算机等高性能计算设备,以及高速网络互联技术,实现对大规模数据和复杂计算任务的高效处理和分析。
Crane-scheduler:基于真实负载进行调度
作者邱天,腾讯云高级工程师,负责腾讯云TKE动态调度器与重调度器产品。背景原生kubernetes调度器只能基于资源的resourcerequest进行调度,然而Pod的真实资源使用率,往往与其所申请资源的request/limit差异很大,这直接导致了集群负载不均的问题:1.集群中的部分节点,资源的真实使用率远低于resourc
Crane-scheduler:基于真实负载进行调度
作者邱天,腾讯云高级工程师,负责腾讯云TKE动态调度器与重调度器产品。背景原生kubernetes调度器只能基于资源的resourcerequest进行调度,然而Pod的真实资源使用率,往往与其所申请资源的request/limit差异很大,这直接导致了集群负载不均的问题:1.集群中的部分节点,资源的真实使用率远低于resourcerequest,却没有被调度更多的Pod,这造成了比较大的资源浪费;2.而集群中的另外一些节点,其资源的真实使用率事实上已经过载,却无法为调
HPC调度基础:slurm集群的部署
本文分享自天翼云开发者社区@《》,作者:才开始学技术的小白0.引言HPC(HighPerformanceComputing,以下简称HPC)是一个领域,试图在任何时间点和技术上对于相关技术、方法和应用等多种方面实现最大的计算能力;换而言之其目的就是求解一类
HPC云化部署的优势和挑战
HPC云化部署指的是将高性能计算(HPC)工作负载部署在云计算平台上,这种方式带来了一些明显的优势,但同时也面临一些挑战。以下是HPC云化部署的主要优势和挑战:
天翼云开发者社区
天翼云开发者社区
Lv1
天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。
文章
675
粉丝
15
获赞
40