IO多路复用（一） - HelloWorld开发者社区

在上一篇博文中提到了五种IO模型，关于这五种IO模型可以参考博文IO模型浅析-阻塞、非阻塞、IO复用、信号驱动、异步IO、同步IO，本篇主要介绍IO多路复用的使用和编程。

IO多路复用的概念

多路复用是一种机制，可以用来监听多种描述符，如果其中任意一个描述符处于就绪的状态，就会返回消息给对应的进程通知其采取下一步的操作。

IO多路复用的优势

当进程需要等待多个描述符的时候，通常情况下进程会开启多个线程，每个线程等待一个描述符就绪，但是多路复用可以同时监听多个描述符，进程中无需开启线程，减少系统开销，在这种情况下多路复用的性能要比使用多线程的性能要好很多。

相关API介绍

在linux中，关于多路复用的使用，有三种不同的API，select、poll和epoll

Select介绍

select的使用需要引入sys/select.h头文件，API函数比较简单，函数原型如下：

int select (int __nfds, fd_set *__restrict __readfds,
           fd_set *__restrict __writefds,
           fd_set *__restrict __exceptfds,
           struct timeval *__restrict __timeout);

fd_set

其中有一个很重要的结构体fd_set，该结构体可以看作是一个描述符的集合，可以将fa_set看作是一个位图，类似于操作系统中的位图，其中每个整数的每一bit代表一个描述符，。

举个简单的例子，fd_set中元素的个数为2，初始化都为0，则fd_set中含有两个整数0，假设一个整数的长度8位（为了好举例子），则展开fd_set的结构就是 00000000 0000000，如果这个时候添加一个描述符为3，则对应fd_set编程 00000000 00001000，可以看到在这种情况下，第一个整数标记描述符0~~7，第二个整数标记8~~15，依次类推。

fd_set有四个关联的api

void FD_ZERO(fd_set *fdset) //清空fdset，将所有bit置为0
void FD_SET(int fd, fd_set *fdset) //将fd对应的bit置为1
void FD_CLR(int fd, fd_set *fdset) //将fd对应的bit置为0
void FD_ISSET(int fd, fd_set *fdset) //判断fd对应的bit是否为1,也就是fd是否就绪

select函数中存在三个fd_set集合，分别代表三种事件，__readfds表示读描述符集合，__writefds表示读描述符集合，__exceptfds表示读描述符集合，当对应的fd_set = NULL时，表示不监听该类描述符。

__nfds

__nfds是fd_set中最大的描述符+1，当调用select的时候，内核态会判断fd_set中描述符是否就绪，__nfds告诉内核最多判断到哪一个描述符。

timeval

struct timeval {
    long tv_sec;    //秒
    long tv_usec;    //微秒
}

参数__timeout指定select的工作方式：

__timeout= NULL，表示select永远等待下去，直到其中至少存在一个描述符就绪
__timeout结构体中秒或者微妙是一个大于0的整数，表示select等待一段固定的事件，若该短时间内未有描述符就绪则返回
__timeout= 0，表示不等待，直接返回

函数返回

select函数返回产生事件的描述符的数量，如果为-1表示产生错误

值得注意的是，比如用户态要监听描述符1和3的读事件，则将readset对应bit置为1，当调用select函数之后，若只有1描述符就绪，则readset对应bit为1，但是描述符3对应的位置为0，这就需要注意，每次调用select的时候，都需要重新初始化并赋值readset结构体，将需要监听的描述符对应的bit置为1，而不能直接使用readset，因为这个时候readset已经被内核改变了。

Poll介绍

select中，每个fd_set结构体最多只能标识1024个描述符，在poll中去掉了这种限制，使用poll需要引入头文件sys/poll.h，poll调用的API如下：

int poll (struct pollfd *__fds, nfds_t __nfds, int __timeout);

pollfd

struct pollfd {
    int fd;                    // poll的文件描述符
    short int events;        // poll关心的事件类型
    short int revents;        // 发生的事件类型
  };

Poll使用结构体pollfd来指定一个需要监听的描述符，结构体中fd为需要监听的文件描述符，events为需要监听的事件类型，而revents为经过poll调用之后返回的事件类型，在调用poll的时候，一般会传入一个pollfd的结构体数组，数组的元素个数表示监控的描述符个数，所以pollfd相对于select，没有最大1024个描述符的限制。

事件类型有多种，在bits/poll.h中定义了多种事件类型，主要如下：

#define POLLIN        0x001        // 有数据可读
#define POLLPRI        0x002        // 有紧迫数据可读
#define POLLOUT        0x004        // 现在写数据不会导致阻塞

# define POLLRDNORM    0x040        // 有普通数据可读
# define POLLRDBAND    0x080        // 有优先数据可读
# define POLLWRNORM    0x100        // 写普通数据不会导致阻塞
# define POLLWRBAND    0x200        // 写优先数据不会导致阻塞

#define POLLERR        0x008        // 发生错误
#define POLLHUP        0x010        // 挂起
#define POLLNVAL    0x020        // 无效文件描述符

当一个文件描述符要同时监听读写事件时，可以写成 events = POLLIN | POLLOUT

可以看到，poll中使用结构体保存一个文件描述符关心的事件，而在select中，统一使用fd_set，一个fd_set中可以是所有需要监听读事件的文件描述符，也可以是所有需要写事件的文件描述符。

相比来说，poll比select更加的灵活，在调用poll之后，无需像select一样需要重新对文件描述符初始化，因为poll返回的事件写在了pollfd->revents成员中。

__fds

__fds的作用同select中的__nfds，表示pollfd数组中最大的下标索引

__timeout

__timeout = -1：poll阻塞直到有事件产生
__timeout = 0：poll立刻返回
__timeout != -1 && __timeout != 0：poll阻塞__timeout对应的时候，如果超过该时间没有事件产生则返回

函数返回

poll函数返回产生事件的描述符的数量，如果返回0表示超时，如果为-1表示产生错误

Epoll介绍

epoll中，使用一个描述符来管理多个文件描述符，使用epoll需要引入头文件sys/epoll.h，epoll相关的api函数如下：

int epoll_create (int __size);
int epoll_ctl (int __epfd, int __op, int __fd, struct epoll_event *__event);
int epoll_wait (int __epfd, struct epoll_event *__events, int __maxevents, int __timeout);

epoll_event

typedef union epoll_data {
  void *ptr;     // 可以用改指针指向自定义的参数
  int fd;         // 可以用改成员指向epoll所监控的文件描述符
  uint32_t u32;
  uint64_t u64;
} epoll_data_t;

struct epoll_event {
  uint32_t events;        // epoll事件
  epoll_data_t data;    // 用户数据
} __EPOLL_PACKED;

epoll_event结构体中，首先是一个events的整型变量，类似于pollfd->events，表示要监控的事件，events支持的事件类型在sys/epoll.h的头文件中，跟pollfd中的事件类型基本移植，如下，这里只写出一部分：

enum EPOLL_EVENTS {
    EPOLLIN = 0x001,
#define EPOLLIN EPOLLIN     // 有数据可读
    EPOLLPRI = 0x002,
#define EPOLLPRI EPOLLPRI     // 有紧迫数据可读
    EPOLLOUT = 0x004,
#define EPOLLOUT EPOLLOUT     // 现在写数据不会导致阻塞
    EPOLLRDNORM = 0x040,
#define EPOLLRDNORM EPOLLRDNORM        // 有普通数据可读
    EPOLLRDBAND = 0x080,
#define EPOLLRDBAND EPOLLRDBAND        // 有优先数据可读
    EPOLLWRNORM = 0x100,
#define EPOLLWRNORM EPOLLWRNORM        // 写普通数据不会导致阻塞
    EPOLLWRBAND = 0x200,
#define EPOLLWRBAND EPOLLWRBAND        // 写优先数据不会导致阻塞
    ...
    EPOLLERR = 0x008,
#define EPOLLERR EPOLLERR    // 发生错误
    EPOLLHUP = 0x010,
#define EPOLLHUP EPOLLHUP    // 挂起
    EPOLLRDHUP = 0x2000,
       ...
  };

epoll_event中的data指向一个共用体结构，可以用该共用体保存自定义的参数，或者指向被监控的文件描述符。

epoll_create

int epoll_create (int __size);

epoll_create函数创建一个epoll实例并返回，该实例可以用于监控__size个文件描述符

epoll_ctl

int epoll_ctl (int __epfd, int __op, int __fd, struct epoll_event *__event);

该函数用来向epoll中注册事件函数，其中__epfd为epoll_create返回的epoll实例，__op表示要进行的操作，__fd为要进行监控的文件描述符，__event要监控的事件。

__op可用的类型定义在sys/epoll.h头文件中，如下：

#define EPOLL_CTL_ADD 1        // 添加文件描述符
#define EPOLL_CTL_DEL 2        // 删除文件描述符
#define EPOLL_CTL_MOD 3        //    修改文件描述符（指的是epoll_ctl中传入的__event）

该函数如果调用成功返回0，否则返回-1。

epoll_wait

int epoll_wait (int __epfd, struct epoll_event *__events, int __maxevents, int __timeout);

epoll_wait类似与select中的select函数、poll中的poll函数，等待内核返回监听描述符的事件产生，其中__epfd是epoll_create创建的epoll实例，__events数组为epoll_wait要返回的已经产生的事件集合，其中第i个元素成员的__events[i]->data->fd表示产生该事件的描述符，__maxevents为希望返回的最大的事件数量（通常为__events的大小），__timeout和poll中的__timeout相同。该函数返回已经就绪的事件的数量，如果为-1表示出错。

select、poll、epoll比较

select和poll的机制基本相同，只不过poll没有select最大文件描述符的限制，在具体使用的时候，有如下缺点：

每次调用select或者poll，都需要将监听的fd_set或者pollfd发送给内核态，如果需要监听大量的文件描述符，这样的效率是很低下的
在内核态中，每次需要对传入的文件描述符进行轮询，查询是否有对应的事件产生。

epoll的高效在于将这些分开，首先epoll不是在每次调用epoll_wait的时候，将描述符传送给内核，而是在epoll_ctl的时候传送描述符给内核，当调用epoll_wait的收，不用每次都接收

不像select和poll使用一个单独的API函数，在epoll中，使用epoll_create创建一个epoll实例，然后当调用epoll_ctl新增监听描述符的时候，这个时候才将用户态的描述符发送到内核态，因为epoll_wait调用的频率肯定要比epoll_create的频率要高，所以当epoll_wait的时候无需传送任何描述符到用户态；

关于第二点，在内核态中，使用一个描述符就绪的链表，当描述符就绪的时候，在内核态中会使用回调函数，该函数会将对应的描述符添加入就绪链表中，那么当epoll_wait调用的时候，就不需要遍历所有的描述符查看是否有就绪的事件，而是直接查看链表是否为空。

总结

可以使用一个生活中的场景来对三者的区别做个总结，仍然接着笔者的上一篇博文IO模型浅析-阻塞、非阻塞、IO复用、信号驱动、异步IO、同步IO中吃饭的例子：

在这个例子中，服务员和餐厅代表内核，客户“你”就是用户态进程，可能觉得这个例子写的不好，在这里写下加深记忆。

select和poll：你去餐厅请客吃饭，你是个豪爽的人，点了很多菜，你告诉服务员对应种类的菜有多少上多少，服务员将菜名一一写在纸上。然后你开始问服务员饭菜有好了么，服务员看着你的菜单一大串，头皮发麻，于是按着菜单的顺序去厨房查看饭菜有没有好，如果菜没有好就划掉菜单中对应的菜，终于找出了所有已经烧好的饭菜，服务员把饭菜端给了你。可是这个时候菜单上只能看到已经准备好的菜了，没准备好的菜看不清了，你觉得这个服务员做事很傻逼，没办法将就点，谁让你性格好呢，于是你重新写了一份菜单（可能这个过程中你又想点一些新的菜或者删除一些菜）。接下来你又去问饭菜好没好，服务员又开始按照菜单的顺序去厨房查看饭菜有没有好。。。（select和poll的主要区别就在于，select中的菜单是有限的，而poll中的菜单是无限的，你可以点任意种类的菜）

epoll：你去餐厅请客吃饭，你是个豪爽的人，点了很多菜，你告诉服务员对应种类的菜有多少上多少，服务员将菜名一一录入到餐厅后台的菜单管理软件中，厨房的师傅烧好一道菜在管理软件中标记完成一下，然后在烧好的菜上挂上对应的桌号放在取菜区，这个时候你来问服务员饭菜有准备好的么，服务员于是查一下管理软件，有标记欸，于是从取菜区取出对应桌号的饭菜送给你，清空标记。过了段时间，你又想点一道新的菜，于是叫来服务员，服务员在菜单软件中添加一栏。接下来你又去问饭菜好没好，服务员又开始看菜单软件中是否有标记完成的信息。。。

另外关于epoll的高效还有很多细节，例如使用mmap将用户空间和内核空间的地址映射到同一块物理内存地址，使用红黑树存储要监听的事件等等，具体的细节可以参考博文select、poll、epoll之间的区别总结整理、高并发网络编程之epoll详解、Linux下的I/O复用与epoll详解、彻底学会使用epoll(一)——ET模式实现分析等几篇文章。

接下来使用select、pol、epoll实现一个tcp反射程序