这个算法不一般,控制拥塞有一手!

天翼云开发者社区
• 阅读 419

数字时代下,远程办公、线上协同成为刚需,直播带货等业务模式盛行,数据流量爆炸式增长,低时延、高流畅的网络传输诉求给数据中心的处理能力带来了极大挑战。RDMA作为一种新型网络传输技术,可大幅提升网络传输实效,帮助网络IO密集的业务(比如分布式存储、分布式数据库等)获得更低的时延以及更高的吞吐,在提升数据中心整体算力方面发挥着重要作用。

随着RDMA被越来越多的数据中心所采用,RDMA拥塞控制也受到了广泛的关注。经典RDMA需要配置Priority Flow Control (PFC)来保证不丢包,进而形成无损网络以实现高性能。但PFC是一种粗粒度机制,它以端口(或端口加优先级)级别运行,不区分流,可能会导致拥堵蔓延,进而出现不公平现象、受害者流、PFC deadlock、PFC storm等一系列性能问题。

缓解PFC缺陷的根本性方案是使用一个流级别(per-flow)的拥塞控制算法。如果想要业务或者应用真正实现RDMA的高性能优势,设计、使用和配置符合业务场景需求的拥塞控制算法是重中之重。针对此,天翼云组建高性能网络团队,聚焦下一代高效CC算法设计,打造适应天翼云网络结构和业务场景的拥塞算法,优化用户体验。

拥塞原因 在网络交换机中,当入口流量大于出口流量的带宽时会发生网络拥塞。在数据中心中产生拥塞的原因较多,其中关键且常见的有以下3种: ①收敛比(总输入带宽/总输出带宽) 数据中心网络架构设计时,从成本和收益两方面来考虑,多数会采取非对称带宽设计,即上下行链路带宽不一致。当交换机连接的服务器上行发包总速率超过上行链路总带宽时,就会在上行口出现拥塞。因而收敛比越高,越容易造成拥塞。 ②ECMP等价多路径负载均衡 当前数据中心网络多采用Fabric架构,采用ECMP来构建多条等价负载的链路,并HASH选择一条链路来转发。ECMP虽然简单,但在选择链路过程中没有考虑到所选链路本身是否有拥塞,对于已经产生拥塞的链路来说,很可能加剧链路的拥塞。 ③Incast问题 这个算法不一般,控制拥塞有一手!

Incast是Many-to-One的通信模式。在数据中心云化的大趋势下,这种通信模式常常发生,尤其是那些以Scale-Out方式实现的分布式存储和计算应用,包括Hadoop、MapReduce、HDFS等。此外,交换机的缓存可以处理暂时的拥塞,但是当拥塞太久时,交换机的缓存就会过载。当交换机缓存过载时,若交换机开启了WERD功能,则会根据算法将接收到的数据包丢弃。

流控算法研究趋势 为解决数据中心内的拥塞问题,天翼云高性能网络团队的廖怡博士对业界几个主流算法进行了详细分析和总结,如下所示 这个算法不一般,控制拥塞有一手! 这个算法不一般,控制拥塞有一手! 这个算法不一般,控制拥塞有一手! 这个算法不一般,控制拥塞有一手!

基于上述对四类主流算法的分析,天翼云高性能网络团队还总结出业界CC算法研究趋势,即尽可能破除对PFC的依赖,降低排队时间,并且尽可能地简化交换机的配置,简化控制参数,维护较浅的队列深度,进而得到一个高速的、NO-PFC、NO-ECN、Zero Queuing的CC算法。

▍若不依赖交换机的配合,仅依靠网卡本身实现端到端的流控,则基本采用RTT作为拥塞感知的信号,实现拥塞控制; ▍若依赖交换机的配合,逐跳记录网络拥塞控制,则基本是基于ECN实现,或是在交换机上部署其他自研的算法与网卡侧配合。

天翼云自研拥塞控制算法特性 为了适应数据中心不同的流量场景,提供极致流畅的传输性能及超低时延、高可靠保障,天翼云提出了基于RDMA的天翼云自研拥塞控制算法,适用于天翼云自研整个RDMA网络,其支持特性主要如下: ①支持PFC和DCQCN基本流控算法; ②支持自研的PFC-Free的拥塞控制算法,无需交换机的配合,实现no-PFC、no-ECN特性; ③支持RoCEv2的选择重传功能; ④支持基于AI技术的流量模型训练,训练模型参数,自适应发送参数; ⑤支持长距、跨POD/AZ的RDMA拥塞控制; ⑥支持可编程CC。

天翼云自研拥塞控制算法概述 针对流控算法研究趋势,在天翼云的场景中,天翼云高性能网络团队定义了两种场景:基于自研智能网卡和基于自研智能网卡+自研交换机的拥塞控制算法。 ①基于自研智能网卡的拥塞控制算法 这个算法不一般,控制拥塞有一手!

▶ 天翼云自研拥塞控制算法基本思想——2段式端到端拥塞控制,用于RDMA的拥塞控制 ▍ 第1阶段:起始带宽探测,用于启动时初始发送窗口设置 ▍第2阶段:Receiver-driven的端到端拥塞避免方法• 接收侧检测本地的接收缓存状态,得到本地可用容量(Available Capacity,AC)并量化成Credit值;• 接收侧根据容量阈值触发拥塞控制,向发送端发送ACK报文,并在报文中携带当前节点可用的Credit;• 发送端根据接收到的ACK报文的RTT和Credit, 调节发送窗口的大小。

②基于自研智能网卡+自研交换机的拥塞控制算法 这个算法不一般,控制拥塞有一手!

▶ 天翼云自研拥塞控制算法基本思想的扩展 ▍ 自研紫金网卡和紫金桥交换机都具备主动拥塞通知能力,可向发送端主动发送网络拥塞状态信息,避免拥塞状态响应过慢,提高大规模、长距网络的拥塞控制能力; ▍ 紫金桥交换机和紫金网卡复用拥塞感知模型,统一报文格式,简化接收端建模,提高系统可扩展性; ▍ 网卡和交换机支持可编程特性,实现不同组网场景的灵活配置; ▍ 可扩展性强,适合大规模网络的增量部署。 结合目前各大厂商已经商用的数据中心流控算法来看,业界关注的重点是可部署性,研究的重点是尽可能破除对PFC的依赖,并且尽可能地简化交换机的配置、简化控制参数,得到高速、NO-PFC、NO-ECN的CC算法。

天翼云自研拥塞控制算法在不依赖交换机的配合场景中,仅依靠网卡本身便可利用RTT作为拥塞感知的信号,实现拥塞控制与端到端的流控,实现在中小规模网络的快速部署。同时,由于其不依赖交换机,天翼云自研拥塞控制算法在天翼云从现有数据中心升级到RDMA网络这一过程中起到了极大的加速作用。

在部署有自研交换机的场景中,天翼云自研拥塞控制算法则会基于ECN实现逐跳记录网络拥塞控制、逐跳感知、精细化控制,仅需增加有限的部署运维复杂度,即可获得大规模和长距离网络中更佳的拥塞控制能力。

随着深度学习和人工智能等新应用的兴起, 网络环境日趋复杂且动态变化,数据中心亟需提升性能以更快地处理更大规模的数据流。凭借端网融合的加速优势及天翼云自研拥塞控制算法,天翼云RDMA网络将会取得更加优异的表现,为建设具备低时延、高算力、高性能的新型数据中心提供支撑,为用户打造稳定高效的网络传输环境。

点赞
收藏
评论区
推荐文章
Stella981 Stella981
3年前
GaussDB(for MySQL)如何在存储架构设计上做到高可靠、高可用
摘要:GaussDB(forMySQL)通过ND算子下推解决存储节点和计算节点之间的传输速度,减少网络开销这个难题。数据库作为高效稳定处理海量数据交易/分析的坚强数据底座,底层架构设计的重要性不言而喻。以当前主流的存算分离架构为例,如何提高存储节点和计算节点之间的传输速度,减少网络开销非常关键,GaussDB(forMySQL)
Wesley13 Wesley13
3年前
UDT源码剖析(一)之总览
介绍随着网络带宽延时产品的增加,常用的TCP协议开始变得低效。这是因为它的AIMD算法彻底的减少了拥塞窗口,但不能快速的恢复可用带宽。理论上的流量分析表明TCP在BDP增高的情况下比较容易受到包损失攻击。另外,继承自TCP拥塞控制的不公平的RTT也成为在分布式数据密集程序中的严重问题。拥有不同RTT的并发TCP流将不公平地分享带宽。尽管在小的BDP网
Wesley13 Wesley13
3年前
RPC的简单实现
RPC(RemoteProcedureCall)—远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。RPC采用客户机/
Stella981 Stella981
3年前
RPC简介与hdfs读过程与写过程简介
1.RPC简介RemoteProcedureCall远程过程调用协议  RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络
Stella981 Stella981
3年前
Linux应急响应(一):SSH暴力破解
0x00前言SSH是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议,主要用于给远程登录会话数据进行加密,保证数据传输的安全。SSH口令长度太短或者复杂度不够,如仅包含数字,或仅包含字母等,容易被攻击者破解,一旦被攻击者获取,可用来直接登录系统,控制服务器所有权限。0x01应急场景某天,网站
边缘计算与MEC浅谈
边缘计算是在靠近物或数据源头的网络边缘侧,通过融合网络、计算、存储、应用核心能力的分布式开放平台,就近提供边缘智能服务。简单点讲,边缘计算是将从终端采集到的数据,直接在靠近数据产生的本地设备或网络中进行分析,无需再将数据传输至云端数据处理中心。
RDMA网络实践
RDMA(RemoteDirectMemoryAccess)是远程直接内存访问技术,由于其低时延,低CPU占用等优势,被广泛的应用在分布式存储或计算系统中。DMA技术是一种单机内的高速数据传输技术,通常由DMA控制器来控制数据的传输流程,释放了CPU资源,而RDMA技术是一种借助IB网卡实现远程高数数据传输的技术。
边缘计算简介
边缘计算是一种新兴的计算模型,旨在将计算能力推向离用户更近的边缘设备,以提供更快速、可靠和低延迟的计算服务。在传统的云计算模式中,大部分计算任务都是集中在远程的数据中心进行处理,这可能导致网络延迟和带宽瓶颈。边缘计算通过在离用户更近的边缘设备上执行计算任务,可以减少数据传输的时间和带宽消耗,提供更高效的计算体验。
摘星星的猫 摘星星的猫
9个月前
智能化数据中心代理开启网络新纪元
在当今数字化时代,数据被誉为新时代的石油,而数据中心则是这些宝贵资源的驻扎地。然而,随着网络的普及和信息化的进程,企业面临的网络挑战也愈加严峻。在这样的背景下,智能化的数据中心代理成为了企业实现网络安全、高效运营的重要一环。是指一种服务,通过在数据中心部署
玩转云端 | 网络也i人?咋变显眼包?天翼云AccessOne边缘接入来了!
AccessOne边缘接入服务提供低时延、高可靠的传输加速服务,可以解决跨运营商网络不稳定、单线源站、网络拥塞等诸多因素导致的延迟高、服务不稳定等问题,提升网络传输性能和用户体验。AccessOne边缘接入服务拥有多样灵活的接入方式,客户可将任意位置的数据资源安全连接到边缘网络入口,实现全球范围数据高速、稳定、安全的传输,适用于应用加速等多协议加速的业务场景。基于AccessOne边缘接入服务,用户可实现业务透明转发,并构建网络层安全防护,无惧DDoS攻/击。
天翼云开发者社区
天翼云开发者社区
Lv1
天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。
文章
722
粉丝
15
获赞
40