亲宝软件园·资讯

展开

TCP协议

ColoDu 人气:0

TCP详解

1、前言

传输控制协议(Transmission Control Protocol,TCP)是一种面向连接的、可靠的、基于字节流的传输层通信协议,由IETF的RFC 793定义。

2、TCP详解

2.1TCP报文头部

来源连接端口(16bit)\目的连接端口(16bit):计算机上的进程要和其他进程通信是要通过计算机端口的,而一个计算机端口某个时刻只能被一个进程占用,所以通过指定源端口和目标端口,就可以知道是哪两个进程需要通信。源端口、目标端口是用16位表示的,可推算计算机的端口个数为2^16个

序列号码(seq,32bit):

如果含有同步化旗标(SYN),则此为最初序列号;第一个数据比特的序列号为本序列加1。

如果没有同步化旗标(SYN),则此为第一个数据比特的序列码。

确认号码(ack,32bit):期望收到的数据的开始序列号,也即是接收端收到的数据的字节长度加1。

数据偏移(4bit):表示TCP报文段的首部长度,共4位,由于TCP首部包含一个长度可变的选项部分,需要指定这个TCP报文段到底有多长。它指出TCP报文段的数据起始处距离TCP报文段的起始处有多远。该字段的单位是32位(即4个字节为计算单位),4位二进制最大表示15,所以数据偏移也就是TCP首部最大60字节。

保留(3bit):置0

NS(ECN-nonce,ECN显式拥塞通知(Explicit Congestion Notification)):是对TCP的扩展,定义于RFC 3540第5节;ECN允许拥塞控制的端对端通知而避免丢包。ECN为一项可选功能,如果底层网络设备支持,则可能被启用ECN的两个端点使用。当有序数据包到达时,ECN-nonce接收器会维护随机数的和,并在每个确认中返回当前的随机数的和。在标记分组的情况下,接收机可能不知道一个或多个随机数值,在这种情况下,当计算总和时,接收端将忽略丢失的随机数值,并将ECN-Echo置位向发送端发出阻塞信号。

CWR(Congestion Window Reduced,减少拥塞窗口):当具有ECN功能的TCP发送方处于某种原因(由于重传超时、快速重传或相应ECN通知)减少其拥塞窗口时,TCP发送方会在第一个新数据的TCP头部中设置CWR标识后,减少其随后发送的报文。如果该报文在网络中被丢弃,则发送方的TCP将不得不再次减少拥塞窗口,并重新发送丢弃的数据包。(RFC 3168)

ECE(ECN-Echo):发送端在接收到ECE置位的TCP包时,发送端会将CWR进行置位,以确认接收到ECN-echo标识并对其做出反应。(RFC 3168)

(注:

在两端协商建立ECN关系时,发送方A将CWR与ECE同时置位,形成ECN SYN包并发送给接收方B;接收方B在接收到ECN SYN包时,只将ECE位置位,CWR不置位,形成ECN SYN-Ack包发送给发送方A。

在发生拥塞时,接收端B在接收到一组TCP包,计算ECN-nonce接收器中随机数总和,并与确认包中的随机数总和进行比较,如果两个数值不一样,则发送端A端判断发生拥塞,会将发送给发送端的第一个TCP包中ECE进行置位;在发送端A接收到这个ECE位被置位的数据包之后,它会将CWR进行置位,并发送给你接收端B;在接收端B接收到一个CWR置位的数据包,它会减少向发送端A的数据包发送。)

USG:标识紧急指针是否有效

ACK:标识确认序号是否有效

PSH:用来标识接收端应用程序立刻将数据从TCP缓冲区读取

RST:要求重新建立连接,我们把还有RST标识的报文称为复位报文段

SYN:发出建立连接,我们把还有SYN标识的报文称为同步报文段

FIN:通知对端,本段即将关闭,我们把含有FIN标识的报文称为结束报文段

窗口大小:占用16bit,表示从确认号开始,本报文的发送方可以接收的字数,即接收窗口大小,用于流量控制。窗口大小为滑动计算,由Window size value * Window size scaling factor(此值在三次握手阶段TCP选项Windowscale协商得到)得出此值。

校验和:占用16bit,由发送端填充,检验形式有CRC校验等,如果接收端校验不通过,则认为数据有问题,此处的校验和不光包含TCP首部,也包含TCP数据部分,以16位字进行计算所得,这是一个强制字段。

紧急指针:占用16bit,用来标识数据哪个部分有问题,只在USG位被置位时使用。

选项:最多40字节。每个选项的开始时1字节的kind字段,说明选项的类型

0:选项表结束(1字节)

1:无操作(1字节),用于选项字段之间的字边界对齐

2:最大报文长度(4字节,Maximum Segment Size,MSS)通常在创建连接而设置SYN标识的数据包中指明这个选项,指明本段所能接受的最大的报文段。通常将MSS设置为(MTU-40)字节,携带TCP报文段的IP数据包的长度就不会超过MTU(MTU最大长度为1518字节,最短位为64字节),从而避免本机发生IP分片,只能出现在同步报文段中,否则将被忽略。

MTU和MSS值的关系:MTU=MSS+IP Header+TCP Header

通信双方最终的MSS值=较小MTU-IP Header-TCP Header

3:窗口扩大因子(4字节,wscale),取值0-14.用来把TCP的窗口的值左移的位数,使窗口值乘倍。只能出现在同步报文段中,否则将被忽略。这是因为现在的TCP接收数据缓冲区(接收窗口)的长度通常大于65535字节。

4:sackOK,发送端支持并同意使用SACK选项

5:SACK实际工作的选项

6:时间戳(10字节,TCP Timestamps Option,TSopt)

发送端的时间戳(Timestamp Value field,TSval,4字节)

时间戳回显应答(Timestamp Echo Reply field,TSecr,4字节)

 

2、连接管理机制

正常情况下,TCP需要经过三次握手建立连接,四次挥手端口连接。

2.1TCP建立连接

三次握手过程,如下图:

详细经过:

刚开始,客户端与服务器都处于CLOSED状态;此时,客户端向服务器主动发出连接,服务器被动接收连接:

1)TCP服务器进程先创建传输控制模块TCB,时刻准备接收客户端进程的连接,此时服务器就进入了LISTEN(监听)状态

2)TCP客户端进程也是先创建传输控制模块TCB,然后向服务器发出连接报文,此时报文首部中的同步表示位SYN=1,同时选择一个初始序列号seq=x,此时,TCP客户端进程进入SYN-SENT(同步已发送)状态。TCP规定,SYN报文段(SYN=1的报文段)不能携带数据,但需要消耗掉一个序号。

3)TCP服务器收到连接报文后,如果同意连接,则发出确认报文。确认报文中的ACK=1,SYN=1,确认序号是x+1,同时选择一个初始序列号seq=x,此时,TCP服务器进程进入SYN-RCVD(同步收到)状态。这个报文也不能携带数据,但同样要消耗一个序号。

4)在TCP客户端进程收到确认包后,还要向服务器给出确认收到SYN-ACK的确认包。确认报文的AC=1,确认序列号=y+1,自己的序列号=x+1。

5)此时,TCP连接建立,客户端进入ESTABLISHED(已建立连接)状态。当服务器收到客户端的确认后也进去ESTABLISHED状态,此后双方就可以进行数据传输。

 

问题一:为什么不用两次握手,建立连接?

答:假想一下,如果我们去掉第三次握手?因为我们不进行第三次握手,所以在服务端对客户端进行回应(第二次握手)后,就会理所当然的认为连接已建立,而如果客户端没有收到服务端的这次回应,那么,客户端会认为连接没有建立,但是服务端会对之前的连接保存一定的系统资源,如果出现大量的情况,那么服务端就会因为系统资源耗尽,而导致会崩溃。

 

问题二:为什么不是四次?

答:因为在TCP通过三次握手后,客户端和服务端至少可以确认之前的情况,但是无法确定之后的情况,基于此理论,无论4次还是5次都是无法确定的该报是否已经收到,所以即便再多的握手包也都是徒劳的。

 

2.2TCP断开连接

四次挥手过程,如下图:

模式一:

 

详细过程:

数据传输完毕后,双方都可以释放连接,此时客户端和服务器都处于ESTABLISHED状态,然后客户端主动断开连接,服务器被动断开连接。

1)客户端进程发出释放连接报文,并且停止发送数据。释放数据报文首部,FIN=1,其序列号seq=u(等于前面已经传送过来的数据的最后一个字节的序号加1),此时客户端进入FIN-WAIT-1(终止等待1)状态。TCP规定,FIN报文段计是不携带数据,也要消耗一个序号。

2)服务器收到释放连接报文,发出确认报文,ACK=1,ack=u+1,并带上自己的序号seq=v,此时,服务端进入CLOSE-WAIT(关闭等待)状态。TCP服务器通知高层的应用进程,客户端向服务器的方向就释放了,这时候处于半关闭状态,即客户端已经没有数据要发送,但是服务器若发送数据,客户端依然要接收。这个状态还要持续一段时间,也就是整个CLOSE-WAIT状态持续的时间。

3)客户端收到服务器的确认断开连接后,此时客户端就进入FIN-WAIT-2(终止等待2)状态,等待服务器发送连接释放报文(在这之前还需接受服务器发送的最好的数据报文)。

4)服务器将最后的数据发送完毕后,就向客户端发送连接释放报文,FIN=1,ack=u+1,由于在半关闭状态,服务器很可能又发送了一些数据,假定此时的序列号位seq=w,此时,服务器就进入LAST-ACK(最后确认),等待客户端的确认。

5)客户端收到服务器的连接释放报文后,必须发出确认,ACK=1,ack=w+1,而自己的序列号是seq=u+1,此时,客户端就进入了TIME-WAIT(时间等待)状态。注意此时TCP还没有释放,必须经过2*MSL(最长报文段寿命)的时间后,当客户端撤销相应的TCB后,才进入CLOSED状态。

6)服务器只要收到了客户端发出的确认,立即进入CLOSED状态,同时,撤销进程产生的TCB,这就结束了这次TCP的连接。服务端会比客户端提早结束这次TCP连接。

 

模式二:

数据传输完毕后,双方都可以释放连接,此时客户端和服务器都处于ESTABLISHED状态,然后双方都主动断开。

1)两端同时向对端传送释放连接报文,并停止发送数据。释放数据报文首部,FIN=1,ACK=1,序列号分seq别是c与s,此时两端同时进入FIN-WAIT-1(种植等待1)状态。

2)在两端分别收到了对端发送自己的释放连接报文后,并发出确认报文。确认数据报文首部,ACK=1,ack分别时s+1和c+1,并携分别带自己的自己的序列号seq是c+1和s+1,并且自己的状态转换为CLOSING(双方同时尝试关闭,等待确认)状态。

3)在两端收到对端的确认报文之后,状态从CLOSING(双方同时尝试关闭,等待确认)状态,转变为TIME-WAIT(时间等待)状态,此时需要经过2*MSL(最长报文段寿命)的使时间后,双方分别撤销了相应的TCB后,双方才会进入CLOSED状态。

 

3、有限TCP状态机

TCP协议的操作可以使用11钟状态的有限状态机。

CLOSED:关闭状态,没有链接活动或正在进行

LISTEN:监听状态,服务器正在等待连接进入

SYN_SENT:已发出链接报文,等待确认。

SYN_RCVD:收到一个链接报文,并已发出确认链接报文,尚未确认对方是否已收到。

ESTABLISHED:链接建立,正常数据传输状态。

FIN_WAIT_1:(主动关闭)已发送关闭连接报文,等待确认

FIN_WAIT_2:(主动关闭)收到对方关闭确认,等到对方关闭连接报文

TIMED_WAIT:完成双向关闭,等待2*MSL(最长报文时间)

CLOSING:在发出FIN后,又收到对方发送给的FIN后,进入等待对方对己方的连接终止(FIN)的确认(ACK)的状态。

CLOSE_WAIT:(被动关闭)收到对方关闭请求,已经确认

LAST_ACK:(被动关闭)等待最后一个关闭确认,并等待所有分组死掉

 

4、客户端得典型状态转移

1、客户端通过connect系统调用主动与服务器建立连接connect系统调用首先给服务器发送一个同步报文段,使连接转移到SYN_SENT状态

此后connect系统调用可能因为如下两个原因失败返回:

1)如果connect连接的目标端口不存在(未被任何进程监听),或者该端口仍被处于TIME_WAIT状态的连接所占用,则服务器将给客户端发送一个复位报文段,connect调用失败。

2)如果目标端口存在,但connect在超时时间内未收到服务器的确认报文段,则connect调用失败。

2、connect调用失败将使连接立即返回到初始的CLOSED状态。如果客户端成功收到服务器的同步报文段和确认,则connect调用成功返回,连接转移至ESTABLISHED状态。

3、当客户端执行主动关闭时,它将向服务器发送一个结束报文段,同时连接进入FIN_WAIT_1状态。若此时客户端收到服务器专门用于确认目的的确认报文段,则连接转移至FIN_WAIT_2状态。当客户端处于FIN_WAIT_2状态时,服务器处于CLOSE_WAIT状态,这一对状态是可能发生半关闭的状态。此时如果服务器也关闭连接(发送结束报文段),则客户端将给予确认并进入TIME_WAIT状态

4、客户端从FIN_WAIT_1状态可能直接进入TIME_WAIT状态(不经过FIN_WAIT_2状态),前提是处于FIN_WAIT_1状态的服务器直接收到带确认信息的结束报文段(而不是先收到确认报文段,再收到结束报文段)。

5、处于FIN_WAIT_2状态的客户端需要等待服务器发送结束报文段,才能转移至TIME_WAIT状态,否则它将一直停留在这个状态。如果不是为了在半关闭状态下继续接收数据,连接长时间地停留在FIN_WAIT_2状态并无益处。连接停留在FIN_WAIT_2状态的情况可能发生在:客户端执行半关闭后,未等服务器关闭连接就强行退出了。此时客户端连接由内核来接管,可称之为孤儿连接(和孤儿进程类似)

 

5、TCP重传超时

1)异常网络状况下(开始出现超时或丢包),TCP控制数据传输以保证其承诺的可靠服务;

2)TCP服务必须能够重传超时时间内未收到确认的TCP报文段。为此,TCP模块为每个TCP报文段都维护一个重传定时器,该定时器在TCP报文段第一次被发送时启动。如果超时时间内未收到接收方的应答,TCP模块将重传TCP报文段并重置定时器。至于下次重传的超时时间如何选择,以及最多执行多少次重传,就是TCP的重传策略;

3)与TCP超时重传相关的两个内核参数:

/proc/sys/net/ipv4/tcp_retries1,指定在底层IP接管之前TCP最少执行的重传次数,默认值是3

/proc/sys/net/ipv4/tcp_retries2,指定连接放弃前TCP最多可以执行的重传次数,默认值15(一般对应13~30min)

 

6、拥塞控制

1)网络中的带宽、交换结点中的缓存和处理机等,都是网络的资源。在某段时间,若对网络中某一资源的需求超过了该资源所能提供的可承受的能力,网络的性能就会变坏。此情况称为拥塞。

2)TCP为提高网络利用率,降低丢包率,并保证网络资源对每条数据流的公平性。即所谓的拥塞控制。

3)TCP拥塞控制的标准文档是RFC 5681,其中详细介绍了拥塞控制的四个部分:慢启动(slow start)、拥塞避免(congestion avoidance)、快速重传(fast retransmit)和快速恢复(fast recovery)。拥塞控制算法在Linux下有多种实现,比如reno算法、vegas算法和cubic算法等。它们或者部分或者全部实现了上述四个部分。

 4)当前所使用的拥塞控制算法

/proc/sys/net/ipv4/tcp_congestion_control

 

7、KeepAlive包

        TCP的KeepAlive是侧重于保持客户端和服务器的连接,一方会定期发送心跳包给另一方,当一方断掉的时候,没有断掉的定时发送几个心跳包,如果间隔发送几次,对方都返回的RST,而不是ACK,那么就释放当前连接。假想一下,如果TCP层没有keepAlive的机制,当一方断开连接却没有发送FIN给另外一方,那么另外一方会认为这个连接还是存在的,,类似的连接一多,时间一长,那么这对服务器资源是一种很大的影响。

7.2 为什么要有keepAlive?

        首先明确,在TCP是没有“请求”一说。TCP是一种通信的方式,“请求”一词是事务上的概念。在TCP连接建立之后,如果应用程序或者承载在TCP上面的协议一直不发送数据,或者隔很长时间才发送一次数据,当链接很久没有数据报文传输时,如何确定对方还在线?对方到底掉线了还是没有数据传输,链接还需不需要保持?这种情况在TCP协议设计中时需要考虑的。

       TCP协议通过一种巧妙的方式去解决这个问题,当没有传输数据,超时一段时间后,TCP自动发送一个数据为全0的1字节的报文,如果对方回应了这个报文,说明对方在线,TCP链接就可以继续保持,如果对方没有报文回应,并且重试了多次之后,则本端认为链接丢失,没有必要继续保持链接。

7.3 怎么开启KeepAlive?

在Linux上,默认不开启KeepAlive,并且没有一个全局的选项去开启TCP的KeepAlive。需要开启KeepAlive的应用必须在TCP的socket中单独开启。Linux Kernel有三个选项影响到KeepAlive的行为:

在/proc/sys/net/ipv4/目录下:

tcp_keepalive_time 7200 #距离上次传送数多少时间未收到新报文判断为开始检测,单位秒,默认7200s

tcp_keepalive_intvl 75 #检测开始多长时间发送心跳包,单位秒,默认75s

tcp_keepalive_probes 9 #发送几次心跳包对方没有回应则close链接,默认9次

TCP socket也有三个选项和内核对应,通过setsockopt系统调用针对单独的socket进行设置

TCPKEEPCNT:覆盖tcp_keepalive_probes

TCPKEEPDLE:覆盖tcp_keepalive_time

TCPKEEPTVL:覆盖tcp_keepalive_intvl

举个例子,如果我的系统默认keepalive设置,如果我在应用程序中针对socket开启了keepalive,然后设置的TCP_KEEPIDLE为60,那么TCP协议栈在发现TCP链接空闲了60s没有传输数据,那么系统就会发送第一个KeepAlive探测报文。

7.4 KeepAlive的不足

KeepAlive只能检测链接是否存活,不能检测链接是否可用。例如,某一方发生了死锁,无法在链接上进行任何读写操作,但是操作系统仍然可以相应网络的KeepAlive的探测包。

TCP KeepAlive机制依赖于操作系统的实现,灵活性不足,并且默认关闭。且默认的KeepAlive心跳时间是2个小时,时间较长。并且,代理或者负载均衡,会让TCP KeepAlive失效。

 

8、基本TCP调优参数

1)Linux为了防止孤儿连接长时间存留在内核中,定义了两个内核参数:

/proc/sys/net/ipv4/tcp_max_orphans 指定内核能接管的孤儿连接数目

/proc/sys/net/ipv4/tcp_fin_timeout 指定孤儿连接在内核中生存的时间

 2)Linux为了保证tcp连接得一定数量,定义了两个内核参数:

/proc/sys/net/ipv4/tcp_max_syn_backlog 未完成连接队列大小,建议调整大小为1024以上

/proc/sys/net/core/somaxconn 完成连接队列大小,建议调整大小为1024以上

 

加载全部内容

相关教程
猜你喜欢
用户评论