TCP是可靠传输,应用层是否还需要做校验

Wesley13
• 阅读 1198

为建立中文知识库加块砖       ——中科大胡不归

0. 原标题: TCP新手误区--数据校验的意义

这是一篇转载的文章,主要回答此文标题“TCP是可靠传输,应用层是否还需要做校验”。

1. 背景

最近面试了很多的学生,发现很多TCP的新手对于TCP的使用有一些误区,而这些坑也是当初我曾经疑惑过得地方。网上很少有文章对这些问题有过详细的解析,即是有也只是直接给出结论和做法,没有人将其中的来龙去脉讲解清楚,所以我将这些问题的来龙去脉在这一系列的文章中讲述出来,希望能让广大TCP的新手避开这些坑。

2. 问题

我面试时经常会问的一个问题是TCP如何保证数据的正确性,保证数据内容不会出错。大部分人就会开始说丢包重传、接收确认之类的东西,但这些都扯偏了,只要少数人能够正确回答题目要问的问题:首部校验
对于能答上这个问题的人,我会进一步问,这个校验机制能够确保数据传输不会出错吗?
答案是不能,但是至今为止我没有遇到任何一个面试者能够正确回答这个问题。

3. 原因

TCP协议中规定,TCP的首部字段中有一个字段是校验和,发送方将伪首部、TCP首部、TCP数据使用累加和校验的方式计算出一个数字,然后存放在首部的校验和字段里,接收者收到TCP包后重复这个过程,然后将计算出的校验和和接收到的首部中的校验和比较,如果不一致则说明数据在传输过程中出错。这就是TCP的数据校验机制
但是这个机制能够保证检查出一切错误吗?显然不能。因为这种校验方式是累加和,也就是将一系列的数字(TCP协议规定的是数据中的每16个比特位数据作为一个数字)求和后取末位。
但是小学生都知道A+B=B+A,假如在传输的过程中有前后两个16比特位的数据前后颠倒了(至于为什么这么巧合?我不知道,也许路由器有bug?也许是宇宙中的高能粒子击中了电缆?反正这个事情的概率不为零,就有可能会发生),那么校验和的计算结果和颠倒之前是一样的,那么接收端肯定无法检查出这是错误的数据。
至于应用层收到这个数据后会怎么样,不清楚,只能看运气,立刻崩溃那是比较好的结果了。
这篇文章是亚马逊的一次故障记录,这个故障中就是遇到了这个问题,损失很严重。

4. 解决方案

既然TCP自带的校验算法并不靠谱,我们就需要在应用层自己建立一套新的数据校验机制。

4.1 MD5

最简单的就是使用MD5校验,在发送数据前将数据使用MD5加密,并将MD5摘要一起发送,接收端接收数据后将数据再次用MD5加密,如果得到的摘要和收到的摘要一致说明数据正确。
上文亚马逊的处理方式就是这样。

4.2 是否绝对安全

同时使用TCP的加和校验和MD5加密,双管齐下,由于他们的加密原理大相庭径,所以基本不可能出现某种传输错误但是依然能通过双重校验。当然了这种情况出现的可能性到底是不是0需要严格的数学证明,但是我水平有限所以无法给出。但是你依然可以显然的看出这种情况出现的概率比单一一种校验机制被巧合的错误通过的概率要小很多个数量级。

当然另一种校验方式除了MD5校验,还可以使用其他的加密校验算法加密。

4.3 是否要处理校验漏洞

TCP数据的校验漏洞是个很冷门的知识,可能只有刨根问底的人才会对此有过思考,因为普通的人遇到它的概率实在小得可怜,只有那种到了很大处理规模的服务器上才可能见到一次,所以通常的网络开发中不处理这个问题也没有什么。
什么时候应该考虑处理这种情况也并没有什么标准,我认为当你的服务器出现校验漏洞会造成很大的损失的时候你就必须要处理它了,像上文亚马逊的那次故障损失惨重,如果你的服务器不会有什么严重损失,就让他宕机一次也无所谓。

5. 总结

TCP数据的校验的知识并不是网络开发中的关键点,但是通过这个问题可以看出一个人对TCP协议的了解以及思考。所以写这边文章希望能够让面试者对TCP协议有更多深入的了解与思考,取得更好的面试结果。

参考文章:

1.TCP新手误区--数据校验的意义

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
4个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
34.TCP取样器
阅读文本大概需要3分钟。1、TCP取样器的作用   TCP取样器作用就是通过TCP/IP协议来连接服务器,然后发送数据和接收数据。2、TCP取样器详解!(https://oscimg.oschina.net/oscnet/32a9b19ba1db00f321d22a0f33bcfb68a0d.png)TCPClien
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
10个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这