算网资源调度关键技术

天翼云开发者社区
• 阅读 64

本文分享自天翼云开发者社区《算网资源调度关键技术》,作者:大**术

一、概述 在云网融合阶段,网络为云计算提供连接服务,云计算为网络云化提供支撑。随着云网一体化持续演进,云网融合步入算力网络新阶段。算力网络通过对业务、算力资源和网络资源的协同感知,将业务按需调度到合适的算力节点,实现算网资源的统一编排、统一运维、统一运营和统一优化。 为确保算网资源的灵活高效调度,在算网基础设施、算网控制与管理、算网服务等方面,算力网络亟需解决一系列关键技术问题: 在算网基础设施方面,算力网络需具备算力资源抽象与统一标识能力,屏蔽异构算力差异和异构网络差异,提供高质量的网络连接服务; 在算网控制与管理方面,算力网络需感知算网资源状况,根据需求完成算网编排,灵活匹配算力需求与算网资源,实现算网高效运营与调度; 在算网服务方面,算力网络需承载泛在计算的各类应用,根据应用需求,合理解构算力应用、抽象算网需求。

下面进一步介绍算网控制与管理中的算网资源调度所涉及的关键技术。

二、算网资源调度 算网资源调度平台按照业务功能自下而上可以划分为:资源层、路由层、调度层、编排层和服务层等五个层次,其中路由层、调度层和编排层负责实现算网协同控制调度的关键能力。 1)路由层:算力路由是根据所感知的抽象算网资源,综合考虑计算资源及网络状态,按需将业务流量灵活路由至适当的计算节点中。算力路由支持对网络、计算等多维资源、服务的感知与通告,实现算力和网络的协同调度。 2)调度层:基于调度策略实现对于算力资源、网络资源以及存储资源的调度,同时结合服务应用场景的调度能力形成基础能力集,例如计算能力集、网络控制能力集、机器学习能力集等,从而衔接基础算力能力和上层服务编排需求。 3)编排层:将调度层的能力以服务化的方式提供服务注册、服务发现、服务路由等功能,可以按照服务网格的方式提供扁平化的服务编排能力。

三、关键网络技术 (一)IPv6 承载技术 IPv6 承载技术主要包含 IPv6 单栈相关技术和以 SRv6 为代表的 IPv6 协议增强创新技术。随着 IPv6 在全球的规模部署,互联网从双栈逐步向 IPv6 单栈演进的趋势日益明显。IPv6 单栈技术包括但不限于适用于移动网络的 464XLAT 技术以及适用于多域互联网络的IPv6-only Underlay Network,以上技术可以在不同场景下实现在网络边缘对于 IPv4 业务进行接入和承载。构建 IPv6 单栈网络可以满足云计算的海量编址需求,同时简化网络协议层次、简化网络运维,并支持基于 IPv6 地址的算力标识管理,有利于算力溯源与安全管理。 IPv6 协议增强型技术包括 SRv6 技术、APN6 应用感知技术、iFIT 技术、BIERv6 技术等。SRv6 技术简化了复杂的网络协议,可将业务意图翻译成网元可执行的转发和处理指令,助力灵活端到端连接的建立。APN6 利用 IPv6 数据报文扩展头携带相关应用感知信息,使得网络感知到业务信息,便于提供差异化 SLA服务。iFIT 技术将 OAM 指令携带在 IPv6 扩展报头中,进行网络性能的高精度实时检测。BIERv6 技术利用 IPv6 特性的新型组播技术,简化网络部署并且具有良好的可扩展性。 IPv6 承载技术能够有效简化网络并提升网络广连接、自动化、安全性等,有助于解决当前网络难以感知业务需求、算力和服务难以良好匹配的问题。通过 IPv6 协议与扩展,可以使多方、异构的资源整合在一起,解决云和网的灵活对接、云网资源的统一管控和资源利用的整体最优化。 通过 SRv6和服务功能链技术,使能网络可编程能力和网络调度能力,实现网络服务编排;用 IPv6 扩展头将应用信息及其需求传递给网络,网络根据这些信息,通过业务的部署和资源调整来提供精细化和定制化的服务;将服务所需的算力资源信息,结合路由机制在网络发布,作为服务寻址的关键依据,使应用能够按需、实时调用不同地方的多样化计算资源,实现连接和算力在网络的全局优化,从而提供一致的用户体验。 (二)确定性网络 确定性网络技术是构建下一代网络基础设施体系、提升数据传输服务质量的关键技术之一。确定性网络为数据流传输提供极低的数据包丢失率、有限的端到端交付延迟和抖动,具有在多条路径传输并进行选择性收取的冗余保护机制,实现算网业务对于链路中断的无感知运行。 确定性网络技术是一套涵盖了流量整形、队列调度、时钟同步等多维技术的集合,共同保障网络的确定性,其主要包含带宽确定性、路径确定性与时延确定性三个层面。三种确定性指标相互依存,通过确定性网络技术构建一张各类参数(带宽、时延、抖动等) 均在确定性范围内的可靠网络。确定性网络包含的主要技术有: 1)FlexE 技术:灵活以太网(Flexible Ethernet,FlexE)技术为确定性网络提供了带宽及隔离性保障。 2)TSN 技术:时间敏感网络(Time Sensitive Network,TSN)技术为确定性网络提供时延保障。 3)DetNet 技术:DetNet 技术将确定性网络应用范围扩展到广域网,DetNet 实现 IP 网络从 “尽力而为”到“准时、准确、快速”,控制并降低端到端的时延。 4)DIP 技术:确定性 IP 技术(Destination Internet protocol,DIP)适用于三层大规模网络的确定性传输,通过逐流控制面准入、路径规划和带宽预留,基于周期标签做周期映射和标签交换将报文发给接收端。 确定性网络技术可以保障算力网络精准调度算力,为用户提供准时、准确、优质的算力服务。在算力网络中,由于算力是云、边、端的泛在协同形式提供服务,所涉及的确定性技术也因不同的场景而需求不同,端侧与边侧的数据通信涉及跨域的确定性传输。 (三)控制方案 算力网络以网络为平台,通过网络控制面收集和分发服务节点的算力、存储、算法等资源信息,并结合网络信息和上层应用(如工业互联网)需求,提供最佳的计算、存储、网络等资源的分发、关联、交易与调配,从而实现整网资源的最优化配置和使用。算力网络控制方案的实现有集中式和分布式两种。 1)集中式方案 在基于数据中心 SDN 集中调度方案的基础上,由云数据中心向城域网扩展,与边缘云相连接,通过集中式的 SDN 控制器和网络功能虚拟化编排器管理和协调功能(NFVO MANO)实现中心云及边缘云间的算力网络的统一管理和协同调度。 2)分布式控制方案 即基于电信运营商承载网分布式控制能力,结合承载网网元自身控制协议扩展,复用现有 IP 网络控制平面的方式实现算力信息的分发与基于算力寻址的路由,同时综合考虑实时的网络和计算资源状况,将不同的应用调度到合适的计算节点进行处理,实现连接和算力在网络的全局优化。 对比集中式控制与分布式控制两种方案,前者能够做到算力节点的路由可达,配置通过集中式的 SDN控制器可快速实现,但该方案的问题是计算节点无法快速与网络属性联动,也较难与运营商基础网络联动;后者能够充分调动承载网中 IP 路由器节点的控制能力,应用可以感知路径中沿途的所有节点的服务质量,但需要网络根据具体的业务需求选择边界网关协议(Border Gateway Protocol, BGP) 扩展的种类和形式,实现比较复杂。

四、调度策略 常见的调度策略包括: 1)队列资源公平调度 基于不同资源池、不同资源类型的使用优先级,划分不同的作业资源请求队列,依据使用资源情况,对作业进行优先级排序,保证队列资源使用的公平性。 2)用户资源配额调度 基于集群多用户场景,以树状形式描述不同组织、用户的资源使用策略,根据使用资源情况,对作业进行优先级排序,保证多用户间资源使用的公平性。 3)作业优先级调度 依据用户作业递交时指定的作业优先级、递交时间、资源请求量、用户资源使用量等维度综合考虑进行排序,优先级更高的作业优先进行调度。 4)算力亲和性调度 不同作业负载存在多样化的算力需求,如 AI 推理作业对于张量计算需求高,亲和 TPU、NPU 等计算资源、图像处理作业对于矢量计算需求高,亲和 GPU 等计算资源。通过算力亲和调度,实现多样化算力需求任务的最优资源匹配分发,可实现算力资源的最大化利用。 5)资源抢占调度 统一调度支持用户、队列间的资源借用,用以提高集群资源利用率,同时涉及高优先级作业针对被借用资源的紧急回收问题,即资源抢占调度。 6)资源预留调度 通过资源预留的方式,解决大作业和小作业混合负载的场景下,小作业资源频繁,导致大作业资源需求持续无法被满足的问题。 7)资源回填调度 资源回填调度是基于资源预留调度的前提下,通过感知作业结束时间,将已预留但又暂时无法满足作业需求的资源,在一定时间范围内进行重新调度分发,提高集群资源利用率。

五、算网编排 (一)多目标联合优化的算网融合编排 算网融合资源优化目标不仅包括业务时延、吞吐等性能指标,还需要考虑业务可靠性、确定性及网络能效、算网资源利用率、算网管理开销等多种指标。因此,在适配业务需求的基础上,需要进一步考虑面向系统多性能联合优化的算网融合编排技术,通过对多指标权衡与协同管理,实现网络不确定性下的系统承载能力与效率提升。 (二)基于云原生的算网服务编排 通过引入云原生技术,实现业务逻辑和底层资源的完全解耦,打造面向服务的容器编排调度能力,实现服务编排向算网资源的能力开放。对于云边算力资源,算力网络架构采用基于“K8S+轻量化 K8S”的两级联动的架构来实现统一的算力资源调度纳管。K8S 作为中心的资源调度统一平台对整体基础资源进行统一管理和集群管理,而轻量化 K8S 集群主要是作为边缘侧的资源调度平台对于边缘计算集群进行调度和管理。 (三)算网一体智能化编排与部署 算力资源和网络资源的统一管控与编排,要面向用户需求在资源、数据、服务、应用、安全、运维等方面提出合理、高效、高性价比的多云、多域、多类型的一站式算网资源协同服务方案,提供算网一体化协同部署、业务开通、全生命周期运营等服务。通过机器学习、深度学习等技术,对用户需求、业务历史操作数据等进行分析,实现对服务、应用的智能化编排,提升算网协同调度的智能性,满足多云协同、云边协同、存算分离、分布式云计算等复杂业务场景下的云网边各种差异化业务的协同编排需求。此外,对算力和网络设施故障、性能、安全进行智能分析和决策,可以做到智能预判、在线检测、快速定位、实时恢复,满足算力网络高可靠性的需求,提升多云、混合云的场景下用云、管云效能。

六、小结 通过对网络、存储、算力等多维度资源的统一管理和协同调度,实现连接和算力在网络的全局优化,实现算网基础设施高效利用和应用的灵活调度。要达到此目的,在调度层面还面临着一系列挑战: (1)服务和应用的跨集群全域调度。以资源为中心的服务模式已经不能完全满足算力网络的应用需求,需要结合正快速发展的分布式云原生方案实现更细粒度的资源和应用感知、敏捷管理及弹性调度,实现云、边多级异构算力以及多方算力的全局监控、统一管理及协同调度。 (2)智能算网协同调度。在汇集算和网实时动态数据的基础上,实现基于算和网的全量感知的弹性调度机制,同时进一步运用AI等新技术,对用户需求的感知、预测以及高效的资源利用率等提供多维度的调度决策支持,进一步实现算网调度的智能化。

点赞
收藏
评论区
推荐文章
科技创新突破算力瓶颈,云网融合引领数字未来!
8月31日,以“创新强省会,数字向未来”为主题的2022互联网岳麓峰会在长沙开幕。天翼云科技有限公司总经理胡志强出席“科技创新,引领数字未来”分论坛,并发表题为“科技创新突破算力瓶颈云网融合引领数字未来”的主题演讲,就天翼云如何通过科技创新突破算力瓶颈、夯实数字经济发展底座进行了详细介绍。当前,算力已成为数字经济时代最具活力和创新力的新型生产力。云计算作为
Kubernetes 资源拓扑感知调度优化
作者星辰算力团队,星辰算力平台基于深入优化云原生统一接入和多云调度,加固容器运行态隔离,挖掘技术增量价值,平台承载了腾讯内部的CPU和异构算力服务,是腾讯内部大规模离线作业、资源统一调度平台。背景问题源起近年来,随着腾讯内部自研上云项目的不断发展,越来越多的业务开始使用云原生方式托管自己的工作负载,容器平台的规模因此不断增大。以Kubernetes
全国首个算力互联互通验证平台发布,天翼云推动算力智能调度再提速
2023年3月3日,首届算力互联互通论坛在京举办。政府领导、业界专家、企业代表齐聚一堂,共同探讨跨地区、跨架构、跨服务商的算力互联互通能力和体系建设,助力东数西算、算网云融合发展。会上,北京市通信管理局、中国信息通信研究院、中国科学院计算机网络信息中心与共
什么是算力网络
什么是算力网络?是一种根据业务需求,在云、网、边之间按需分配和灵活调度计算资源、存储资源以及网络资源的新型信息基础设施。“算力网络“是“以网络为中心”的多种融合资源供给网络计算模型,将“新计算”(云计算、边缘计算、泛在计算)的算力,通过“新联接”(无处不在的网络)整合起来,实现算力的灵活按需使用。
“息壤”引领首个算力互联互通验证平台建设,天翼云开启算力互联网新纪元!
6月21日,“2023算力互联互通大会”在北京召开。天翼云基于自主研发的云操作系统、紫金DPU、算力分发网络平台“息壤”等能力,作为算力互联互通验证平台的设计方、核心建设者、资源提供者与标准制定者,充分展现了跨服务商、跨架构、跨地域的算力互联互通能力,作为开源社区首批成员与核心贡献者推进国产开源社区体系构建,致力于打造全国算力一体化调度、算力资源跨区域高效配置的基础设施,推动算力产业高质量发展,加快数字中国建设
终端云的探索与研究
终端云的概念与特征简单地说,终端云即基于云、端算力互通,将云端算力下沉至终端,并且通过统一的算力调度及分发管理,支持云、端算力协同、融合调动,且支持手机、Pad、PC、TV等多种类型终端接入,实现多屏互动以及在不同业务场景下云与云、云与端、端与端的业务协同。相对于以往的中心云和边缘云,终端云主要有以下特征和优势:
实力强劲!天翼云斩获多项权威大奖与认证!
近日,云计算标准和开源推进委员会(TC608)年度工作总结会暨算力服务工作组成果发布会在北京召开。会上,天翼云斩获2023年算力服务领航者计划优秀案例等多项大奖,天翼云算力分发网络平台“息壤”通过了可信算力调度服务能力认证。凭借领先的产品技术和丰富的落地实践,天翼云深度赋能千行百业高质量发展,获得业界权威认可。
云行|中国速度,智算未来!天翼云为宁波数智化发展注入新动能!
智算正成为人工智能时代的关键生产力要素。为落实好国家要求,抓住智算新机遇,天翼云着力打造从IaaS到SaaS的一体化服务,实现基础设施、算力平台、算力调度、行业大模型的全面升级。天翼云科技有限公司副总经理黄洪波表示,天翼云已在浙江形成了“211X”的分布式算力资源布局,通过算力多级下沉和层次化布局,天翼云具备了差异化的资源服务能力,广泛服务于宁波等浙江省各类行业客户,为客户提供普惠、泛在、安全的算力资源。未来,天翼云将立足宁波所在的长三角集群,持续深化“东数西算”布局,进一步深化合作,共谋发展。
全国节能宣传周来了!天翼云电脑为绿色低碳注入科技动能!
天翼云电脑具备低能耗设计、零噪音运行以及绿色桌面环境等特性,通过弹性扩容、即开即用、支持多终端接入等能力,可以有效助力用户降本增效。作为云服务“国家队”,中国电信天翼云依托全国一体化算力网络布局、全网算力资源协同调度,能够实现云电脑业务的即取即用、统一调度,更好地满足用户需求,提供个性化的服务。
《算力服务产业图谱(2024年)》发布,天翼云两款产品重磅入选!
云计算开源产业联盟于2023年6月启动了首个算力服务产业图谱及产品名录编制工作。经过公开征集、企业自主申报、产品调研及专家评审,《算力服务产业图谱(2024年)》及《算力服务产品名录(2024年)》于今年7月在第11届可信云大会正式发布。其中,天翼云操作系统大规模云平台(基础服务领域)、天翼云一体化计算加速平台(融合调度、AI赋能领域)成功入选,彰显了天翼云在算力服务领域的研究成果获权威认可
天翼云开发者社区
天翼云开发者社区
Lv1
天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。
文章
653
粉丝
14
获赞
40