#介绍 随着网络带宽延时产品的增加,常用的TCP协议开始变得低效。这是因为它的AIMD算法彻底的减少了拥塞窗口,但不能快速的恢复可用带宽。理论上的流量分析表明TCP在BDP增高的情况下比较容易受到包损失攻击。
另外,继承自TCP拥塞控制的不公平的RTT也成为在分布式数据密集程序中的严重问题。拥有不同RTT的并发TCP流将不公平地分享带宽。尽管在小的BDP网络中使用通常的TCP实现来相对平等的共享带宽,但在拥有大量BDP的网络中,通常的基于TCP的程序就必须承受严重的不公平的问题。这个RTT基于的算法严重的限制了其在广域网分布式计算的效率,例如:internet上的网格计算。
考虑到上面的背景,需要一种在高BDP网络支持高性能数据传输的传输协议。我们推荐一个应用程序级别的传输协议,叫UDT或基于UDP的数据传输协议并拥有用塞控制算法。 #设计目标 UDT主要用在小数量的bulk源共享富裕带宽的情况下,最典型的例子就是建立在光纤广域网上的网格计算,一些研究所在这样的网络上运行他们的分布式的数据密集程序,例如,远程访问仪器、分布式数据挖掘和高分辨率的多媒体流。
UDT的主要目标是效率、公平、稳定。单个的或少量的UDT流应该利用所有高速连接提供的可用带宽,即使带宽变化的很剧烈。同时,所有并发的流必须公平地共享带宽,不依赖于不同的带宽瓶劲、起始时间、RTT。稳定性要求包发送速率应该一直会聚可用带宽非常快,并且必须避免拥塞碰撞。
UDT并不是在瓶劲带宽相对较小的和大量多元短文件流的情况下用来取代TCP的。
UDT主要作为TCP的朋友,和TCP并存,UDT分配的带宽不应该超过根据MAX-MIN规则的最大最小公平共享原则。(备注,最大最小规则允许UDT在高BDP连接下分配TCP不能使用的可用带宽)。 #协议说明 ###1.概述 UDT是双工的,每个UDT实体有两个部分:发送和接收。发送者根据流量控制和速率控制来发送(和重传)应用程序数据。接收者接收数据包和控制包,并根据接收到的包发送控制包。发送和接收程序共享同一个UDP端口来发送和接收。
接收者也负责触发和处理所有的控制事件,包括拥塞控制和可靠性控制和他们的相对机制,例如RTT估计、带宽估计、应答和重传。
UDT总是试着将应用层数据打包成固定的大小,除非数据不够这么大。和TCP相似的是,这个固定的包大小叫做MSS(最大包大小)。由于期望UDT用来传输大块数据流,我们假定只有很小的一部分不规则的大小的包在UDT session中。MSS可以通过应用程序来安装,MTU是其最优值(包括所有包头)。
UDT拥塞控制算法将速率控制和窗口(流量控制)合并起来,前者调整包的发送周期,后者限制最大的位被应答的包。在速率控制中使用的参数通过带宽估计技术来更新,它继承来自基于接收的包方法。同时,速率控制周期是估计RTT的常量,流控制参数依赖于对方的数据到达速度,另外接收端释放的缓冲区的大小。
###2.数据包结构
整体结构:
数据包:
bit 0:
0:数据包 1:控制包 bit ff: 11:单独的数据包 10:一个数据流中的第一个数据包 01:一个数据流中的最后一个数据包 bit o: 0:不立刻交付给用户 1:立刻交付给用户控制包:
bit 1~15: 0:HandleShake Additional Info:Undefined Control Info:Struct CHandleShake 1:Keep-Alive Additional Info:Undefinded Control Info:Undefined 2:ACK Additional Info:The ACK sequence number Control Info: RTT
RTT 方差 接收Buffer的可用空间大小(in bytes) 通告发送方的流量窗口大小(in packets) 估计带宽(每秒的数据包数量)
3:NAK(定时发送这个包,解决包丢失问题) Additional Info:Undefine Control Info:Loss List 4:Congestion/Delay Warning Additional Info:Undefined Control Info:None 5:ShutDown Additional Info:Undefined Control Info:None 6:ACK-ACKed Addritional Info:The ACK sequence number Control Info:None 7:Message Drop Request Additional Info:Message ID Control Info: first sequence number of the message last sequence number of the message 8:Error Sinnal from the Peer Side Addritional:Error Code Control Info:NONE 0x7FFF:Explained by bits16 - 31
###3.定时器 UDT在接收端使用4个定时器来触发不同的周期事件,包括速率控制、应答、丢失报告(negative应答)和重传/连接维护。
UDT中的定时器使用系统时间作为源。UDT接收端主动查询系统时间来检查一个定时器是否过期。对于某个定时器T来说,其拥有周期TP,将定变量t用来记录最近T被设置或复位的时间。如果T在系统时间t0(t= t0)被复位,那么任何t1(t1-t>=TP)是T过期的条件。
四个定时器是:RC定时器、ACK定时器、NAK定时器、EXP定时器。他们的周期分别是:RCTP、ATP、NTP、ETP。
RC定时器用来触发周期性的速率控制。ACK定时器用来触发周期性的有选择的应答(应答包)。RCTP和ATP是常量值,值为:RCTP=ATP=0.01秒。
NAK被用来触发negative应答(NAK包)。重传定时器被用来触发一个数据包的重传和维护连接状态。他们周期依赖于对于RTT的估计。ETP值也依赖于连续EXP时间溢出的次数。推荐的RTT初始值是0.1秒,而NTP和ETP的初始值是:NTP=3_RTT,ETP=3_RTT+ATP。
在每次bounded UDP接收操作(如果收到一个UDP包,一些额外的必须的数据处理时间)时查询系统时间来检查四个定时器是否已经过期。推荐的周期粒度是微秒。UDP接收时间溢出值是实现的一个选择,这依赖于循环查询的负担和事件周期精确度之间的权衡。
速率控制事件更新包发送周期,UDT发送端使用STP来安排数据包的发送。假定一个在时间t0被发送,那么下一次包发送时间是(t0+ STP)。换句话说,如果前面的包发送花费了t’时间,发送端将等待(STP-t’)来发送下一个数据包(如果STP-t’ <0,就不需要等待了)。这个等待间隔需要一个高精确度的实现,推荐使用CPU时钟周期粒度。 ###4.发送端算法
数据结构 A:历史窗口:一个循环数组记录每个数据包的开始时间SND PKT B:发送端丢失链表:发送段丢失列表是一个连接链表,用来存储被接收方NAK包中返回的丢失包序号。这些数字以增加的顺序存储
发送算法 A: 如果发送端的丢失链表是非空的,重传第一个在list中的包,并删除该成员,到5。 B:等待有应用程序数据需要发送 C:如果未应答的包数量超过了两量窗口的大小,转到1。如果不是包装一个新的包并发送它。 D:如果当前包的序号是16n,n是一个整数,转第2步。 E:在SND PKT历史窗口中记录包的发送时间 F:如果这是自上次发送速率降低之后的第一个包,等外SYN时间。 G:等外(STP – t)时间,t是第1到第4步之间的总时间,然后转到1。 ###5.接收端算法
数据结构 A:接收端丢失链表:是一个duple连接链表,元素的值包括:丢失数据包的序号、最近丢失包的反馈时间和包已经被反馈的次数。值以包序号增序的方式存储。 B:应答历史窗口:每个发送ACK的和时间一个循环数组;由于其循环的特性,意味着如果数组中没有更多空间的时候新的值将覆盖老的值。 C:历史窗口:一个用来记录每个包到达时间的循环数组。RCV PKT D:对包窗口:一个用来记录每个探测包对之间的时间间隔。 E:一个用来记录最大接收数据包需要的变量。LRSN被初始化为初始序号减1。LRSN
接收算法 A:查询系统时间来检查RC、ACK、NAK、或EXP定时器是否过期。如果任一定时器过期,处理事件(本节下面介绍)并复位过期的定时器。 B:启动一个时间bounded UDP接收。如果每个包到,转1。 C:设置exp-count为1,并更新ETP为:ETP=RTT+4*RTTVar + ATP。 D:如果所有的发送数据包已经被应答,复位EXP时间变量。 E:检查包头的标志位。如果是一个控制包,根据类型处理它,然后转1。 F:如果当前数据包的需要是16n+1,n是一个整数,记录当前包和上个在对包窗口中数据包的时间间隔。 G:在PKT历史窗口中记录包到达时间 H:如果当前数据包的序号大于LRSN+1,将所有在(但不包括)这两个值之间的序号放入接收丢失链表,并在一个NAK包中将这些序号发送给发送端。如果序号小于LRSN,从接收丢失链表中删除它。 I:更新LRSN,转1。 ###6.处理各种包到达事件
处理RC定时器到期 A:按照下面的原则查找接收端所接收到的所有包之前的序号:如果接收者丢失链表是空的,ACK号码是LRSN+1,否则是在接收丢失队列中的最小序号。 B:如果应答号不大于曾经被ACK2应答的最大应答号,或等于上次应答的应答号并且两次应答之间的时间间隔小于RTT+4_RTTVar,停止(不发送应答)。 C:分配这个应答一个唯一增加的ACK序列号,推荐采用ACK序列号按步骤1增加,并且重叠在达到最大值之后。 D:根据下面的算法来计算包的抵达速度:使用PKT历史窗口中的值计算最近16个包抵达间隔(AI)中值。在这16个值中,删除那些大于AI_8或小于AI*8的包,如果最后剩余8个值,计算他们的平均值(AI’),包抵达速度是1/AI’(每秒包的数量),否则是0。 E:根据3.7节中的内容为每端(W)计算流量窗口。然后计算有效的流量窗口大小为:最大(W,可用接收方缓冲大小),2)。 F:根据下面的算法来计算连接容量估计。如果流量控制快启动阶段(3.7)一直继续,返回0,否则计算最近16个对包间隔(PI),这些值在对包窗口中,那么连接容量就是1/PI(每秒包的数量)。 G:打包应答序列号,应答号,RTT,RTT 变量,有效的流量窗口大小并估计连接,将他们放入ACK包中,然后发送出去。 H:记录ACK序列号,应答号和这个应答的开始时间,并放入历史窗口中。
处理NAK定时器到期 A.:查找接受方的丢失链表,找到所有上次反馈时间是(k*(RTT+4*RTTVar ) )前的包,k当前这个包的反馈次数加1,如果没有反馈丢失,停止。 B:压缩第一步中得到的序号(见3.9),然后在一个NAK包中发送他们到发送方。 C:如果不是停止流量控制快启动阶段。
处理EXP定时器到期 A:如果发送端的丢失链表不是空的,停止 B:将所有未应答的包放到发送端的丢失链表中 C:如果(exp-count>16)并且自上次从对方接收到一个包以来的总时间超过3秒,或者这个时间已经超过3分钟了,这被认为是连接已经断开,关闭UDT连接。 D:如果没有数据,也就没有应答,发送一个保活包给对端,否则将所有未应答包的序号放入发送丢失列表中。 E:更新exp-count为:exp-count= exp-count+1 F:更新ETP为:ETP=exp-count*(RTT+4*RTTVar)+ATP。
收到应答包 A:更新最大的应答序号 B:更新RTT和RTTVar为:RTT = rtt, RTTVar = rv;rtt和rv是ACK包中的RTT和RTTVar值 C:更新NTP和ETP为:NTP=RTT+4_RTTVar;ETP=exp-count_(RTT+4_RTTVar)+ATP。 D:更新连接容量估计:B=(B_7+b)/8,b是ACK包带的值。 E:更新流量窗口大小为ACK中的值。 F:发送ACK2包,并设置与ACK序号相同的应答号到对端 G:复位EXP定时器
收到NAK包 A:将所有NAK包中带的序号放入发送方的丢失列表中 B:通过速率控制来更新STP C:复位EXP定时器
收到ACK2包 A:在ACK历史窗口中根据接收到的ACK2序列号查找行营的ACK包。 B:更新曾经被应答的最大应答号 C:根据ACK2的到达时间和ACK离开时间计算新的rtt值,并且更新RTT和RTTVar值为: RTTVar = (RTTVar *3 +abs(rtt-RTT)/4 RTT = (RTT 7+rtt)/8 RTT和RTTVar的初始值是0.1秒和0.05秒。 D:更新NTP和ETP为: NTP = RTT; ETP = (exp-count +1) RTT+ATP
收到保活包 什么也不做 ###7.速度控制算法
快启动 STP被初始为最小的时间精度(1个CPU周期或1毫秒)。这是在快启动阶段,一般收到一个ACK包其携带的估计带宽大于0这个阶段就停止了。包的发送周期被设置为1/W,W是ACK携带的流量窗口的大小。 快启动阶段仅仅在开始一个UDT连接的时候发生,且不会在UDT连接的以后再出现。在快启动阶段之后,下面的算法就要工作了。
当RC定时器到期时: A:如果在上一个RCTP时间内,没有收到一个ACK,停止 B:计算在上个RCTP时间内的丢失率,计算方法是根据总共发送的包与NAK反馈中总共丢失包的数量。如果丢失率大于0.1%,停止。 C:下个RCTP时间内发送包的增加数量如下计算:(inc) If (B<=C) inc = 1/MSS Else inc = max (10^(ceil(log10((B-C)_MSS_8)))*Beta/MSS,1/MSS) B是连接容量估计,C是当前的发送速度。两个都计算为每秒多少个包。MSS是以字节计算的;Beta是值为0.0000015的常量。
D:更新STP:STP=(STP_RCTP)/(STP_inc + RCTP) E:计算真正的数据发送周期(rsp),从SND PKT历史窗口中得到,如果(STP<0.5 *rsp)设置STP为(0.5 * rsp)。 F:如果(STP<1.0),设置STP为1.0。
收到NAK包时:
- 数据结构: A:自上次速率降低后发送的最大序号LSD B:自上次LSD更新以后的NAK数量NumNAK C:当最大序号大于LSD时两次事件之间的NAK移动的平均数。AvgNAK D:在1到AvgNAK之间的随机平均数。DR
- 算法: A:如果NAK中最大的丢失序列号大于LSD: 增加STP为:STP=STP*(1+1/8) 更新AvgNAK为:AvgNAK = (AvgNAK _7 +NumNAK)/8 更新DR 复位 NumNAK = 0 记录LSD B:否则,增加NumNAK按照1个步骤增加;如果NumNAK % DR = 0;增加STP为:STP=STP_(1+1/8);记录LSD。
- 数据结构: A:自上次速率降低后发送的最大序号LSD B:自上次LSD更新以后的NAK数量NumNAK C:当最大序号大于LSD时两次事件之间的NAK移动的平均数。AvgNAK D:在1到AvgNAK之间的随机平均数。DR
流量控制算法: 流量控制窗口大小(W)初始值是16
当ACK定时器到期时: A:流量控制快启动:如果没有NAK产生或者W没有到达或超过15个包,并且AS>0,流量窗口大小更新为应答包的总数量。 B:否则,如果(AS>0),W更新为:(AS是包的到达速度):W= ceil (W 0.875+AS (RTT +ATP) *0.125) C:限制W到对方最大流量窗口大小。
连接建立与关闭: 一个UDT实体首先作为一个SERVER启动,当一个客户端需要连接的时候其发送握手包。客户端在从服务端接收到一个握手响应包或时间溢出之前,应该每隔一段时间发送一个握手包(时间间隔由响应时间和系统overhead来权衡)。 握手包有如下信息: A:版本:这个值是兼容的目的。当前的版本是2UDT B:初始序号:这是发送这个UDT实体将来用于发送数据包的起始序号。它必须是一个在1到(2^31-1)之间的随机值。另外,建议这个值在合理的时间历史窗口中不应该重复。 C:数据包的大小(通过IP有效负载来度量)MSS D:最大的流量窗口大小:这是接收到握手信息的UDT实体允许的最大流量窗口大小,窗口大小通常限制为接收端的数据结构大小。 服务器接收到一个握手包之后,比较MSS值和他自己的值并设置它自己的值为较小的值。结果值也在握手响应中被发送到客户端,另外还有服务器的版本信息,初始序列号,最大流量窗口大小。 版本字段用来检查两端的兼容性。初始序列号和最大流量窗口大小用于初始化接收到这个握手包的UDT实体参数。 服务器在第一步完成以后就准备发送或接收数据。然而,只要从同一个客户端接收任何握手包,其应该发送响应包。 客户端一旦得到服务器的一个握手响应其就进入发送和接收数据状态。设置它自己的MSS为握手响应包中的值并初始化相应的参数为包中的值(序列号、最大流量窗口)。如果收到任何其他的握手信息,丢掉它。 如果其中的UDT实体要关闭,它将发送一个关闭信息到对端;对方收到这个信息以后将自己关闭。这个关闭信息通过UDP传输,仅仅发送一次,并不保证一定收到。如果消息没有收到,对方将根据时间溢出机制来关闭连接。
丢失信息的处理方案: NAK包中携带的丢失信息是一个32-bit整数的数组。如果数组的中数字是一个正常的序号(第1位是0),这意味着这个序号的包丢失了,如果第1位是1,意味着从这个号码开始(包括该号码)到下一个数组中的元素(包括这个元素值)之间的包(它的第1位必须是0)都丢失。 例如,下面的NAK中携带的信息: 0x00000002, 0x80000006, 0x0000000B, 0x0000000E 上面的信息表明序号为:2,6,7,8,9,10,11,14的包都丢了。 ###8.效率与公平 UDT能够充分利用当前有线网络的独立于连接容量的可用带宽 、RTT、后台共存流、给定的连接比特错误率。UDT在没有数据包丢失的情况下从0bits/s到90%带宽需要一个常量时间,这个时间是7.5秒。UDT并不适合无线网络。 UDT的确满足单瓶劲网络拓扑的最大-最小公平性。在多个瓶劲情况下,根据最大最小原则它能保证较小瓶劲连接或者至少一半的平等共享。RTT对公平性都一点影响。 当和大块的TCP流共存的时候,TCP能占用比UDT更多的带宽,除了三种情况: 1. 网络BDP非常大,TCP不能利用他们的公平共享带宽。这种情况下,UDT将占用TCP不能利用的带宽。 2. 连接容量是如此的小,从而导致UDT的带宽估计技术不能最有的工作;模拟显示这个极限连接容量大约是100kb/s。 3. 在使用FIFO队列作为网络路径的网络中,如果队列大小大于BDP,TCP的共享带宽随着队列大小的增加而降低。然而,抵达UDT的共享带宽是,队列大小通常超过实际路由器/交换机提供的数量。 当短(timewise)类似web的TCP流和小的并发UDT流共存的时候,UDT在TCP流上的效果非常小。