Chapter 1 HTTP概述
1. Web客户端和Web服务器
- web服务器即为HTTP服务器
- Web浏览器属于客户端
- Web浏览器向服务器请求HTTP对象
2. 资源
- Web服务器是Web资源的宿主
- 所有类型的内容来源都是资源
3. 媒体类型(MIME类型)
- Web对象都有MIME类型的数据格式标签
- MIME:多用途因特网邮件扩展(Multipurpose Internet Mail Extension)。是一种文本标签,格式为:主类型/子类型,如text/html、image/jpeg。
- Web浏览器从服务器取得一个对象时,会查看其MIME类型,并判断是否能处理这个对象
4. URI
服务器资源名被称为统一资源标识符(URI,Uniform Resource Identifier)
URI唯一标识并定位信息资源,下面的连接就是一个URI的示例:
现在大部分的URI都是URL
4.1 URL
URL:统一资源定位符,描述了一台特定服务器上某资源的特定位置
URL实例:
4.2 URN
URN:统一资源名,作为特定内容的唯一名称使用,与目前的资源所在地无关。
5. 事务
HTTP事务由一条请求命令和一个响应结果组成。这种通信通过交换报文(格式化数据块)来进行
6. 报文
- HTTP报文由字符串组成,是纯文本。之所以不是二进制码,是为了方面人们进行阅读
- HTTP报文包括:
- 起始行 start line:在请求报文中说明做什么,在响应报文中说明发生了什么
- 首部字段 headers:起始行后有 ≥ 0个首部字段,首部字段包含一些键值对。首部以空格结束
- 主体 body:可包含任意的二进制数据
7. Extra
Web页面中包含多个对象
8. 连接
HTTP是应用层协议,无需操心TCP/IP负责的网络通信细节。HTTP使用TCP来传输数据
TCP提供了:
- 无差错的网络传输
- 按序传输
- 未分段的数据流
9. Web的结构组件
9.1 代理
代理位于客户端和服务器之间,接受并转发所有客户端的请求。代理即是转发者,也是筛网(对请求和响应进行过滤,如过滤掉包含有病毒的请求或响应报文)
9.2 缓存
缓存,又称代理缓存是一种特殊的HTTP代理服务器,可将通过代理发送的文档保存备份保存,目的是提高传输效率
9.3 网关
用于将HTTP流量转换成其他的协议
9.4 隧道
9.5 Agent代理
用户Agent代理是代表用户发起HTTP请求的客户端程序,如Web浏览器、网络爬虫。
Chapter 2 URL和资源
URL语法
1. 方案
- 方案规定如何访问指定资源
- 方案以一个字母符号开始,由第一个“ : ”符号将其与URL的其余部分分隔开
- 方案名无视大小写
2. 主机与端口
- 主机组件标识了能够访问资源的宿主机器,可用主机名(www.joes-hardware.com)或IP地址表示主机名
- 端口组件表示服务器正在监听的网络端口。对于下层使用TCP的HTTP来说,默认端口号为80
3. 用户名和密码
4. 路径
- http://www.joes-hardware.com:80/seasonal/index-fall.html中,/seasonal/index-fall.html就是路径
- 路径组件说明了资源位于服务器的什么地方
- 可用“/” 将URL的路径组件划分为路径段。每个路径段都有自己的参数组件
5. 参数
- 负责解析URL的应用程序有时候需要协议的参数来访问资源,否则,访问的服务器可能不会给请求提供服务,甚至提供错误的服务
- 参数组件是URL中的名值对列表,由字符“ ; ”将其与URL的其余部分分隔开
- URL路径组件可以分成若干路径段,每个路径段都可以有自己的参数,如:http://www.joes-hardware.com/hammers;sale=false/index.html;graphics=true
6. 查询
- http://www.joes-hardware.com/inventory-check.cgi?item=12731中的?item=12731即为查询组件
- 查询组件用于更加精确地查找资源
- URL中的查询组件和标识网关资源的URL路径会被一起发送给网关
- 查询字符串以名值对的形式出现,名值对之间用“ & ”分隔
7. 片段
- 片段组件能够指定返回资源的某一部分,比如一个文本文档中的某个具体章节。
- http://www.joes-hardware.com/tools.html#drills,则返回Joe的五金商店页面/tools.html中的名叫drill的部分
- 服务器通常只处理整个对象,而不是对象的片段,客户端不能将片段传送给服务器。浏览器获取到整个资源以后,会根据片段来显示你感兴趣的那部分。
URL快捷方式
绝对URL与相对URL
绝对URL包含访问资源所需要的所有信息
相对URL p35-36
自动扩展URL
有的浏览器会在用户提供URL后自动扩展URL,比如输入baidu,浏览器会自动插入www.和.com
主要有两种自动扩展方式:
- 主机名扩展:根据主机名,进行URL扩展
- 历史扩展:在用户输入URL时,根据浏览器以前保存的用户历史URL输入来提供一些完整的用户想输入的URL的选项
URL字符集和编码机制
p38-40
未来展望
URN会得到很大的发展
PURL:永久统一资源定位符,是用URL实现URN功能的例子。基本思想是在搜索资源的过程中引入一个中间层,通过中间资源定位符服务器对资源的实际URL进行登记和跟踪
Chapter 3 HTTP报文
3.1 报文流
术语:流入(inbound)、流出(outbound)、上游(downstream)和下游(upstream)
所有发送者都位于接收者的上游,报文向下游流动,如图:
3.2 报文的组成部分
HTTP报文是简单的格式化数据块,包括了:
- 对报文进行描述的起始行
- 包含属性的首部:应以一个空行(CRLF)结束
- 可选的、包含数据的主体部分
3.2.1 报文的语法
请求报文的格式:
响应报文的格式:
请求报文和响应报文只有起始行的语法不同
版本(version)的格式:
1. 起始行
请求报文和响应报文的起始行分别称为请求行和响应行
请求行包含了一个方法、一个请求URL和HTTP版本号,这些字段用空格分隔
响应行包含了一个HTTP版本号、数字状态码和原因短语,用空格分隔
2. 方法
扩展方法:服务器实现的自己的请求方法
3. 状态码
4. 版本号
HTTP/x.y
使用版本号的目的是为了给使用HTTP的应用程序提供线索,以便互相了解对方的能力和报文格式
版本号不应被当作小数来对待,每个数字都会被当作一个单独的数字来处理
3.2.2 首部
p53 - p54
3.3 方法
安全方法
GET方法和HEAD方法被认为是安全的,因为使用这些方法的请求不会产生什么动作
GET
从服务器取文档
HEAD
在未获取实际资源的情况下,对资源的首部进行检查,如查看响应中的状态码,看看某个对象是否存在
PUT
向服务器写入文档
POST
向服务器输入数据
TRACE
对可能经过代理服务器的请求进行追踪,看一看请求报文最终到达服务器的时候变成了什么样子
OPTIONS
请求Web服务器告知其支持的各种功能,或者对某些特殊资源支持哪些方法
DELETE
请服务器删除所指定的资源
扩展方法
按照惯例 ” 对所发送的内容要求严一点,对所接收的内容宽容一些 “ 来处理扩展方法
3.4 状态码
P62-70
MN