linux的容器依赖cgroups,cgroups不光追踪进程、还跟踪CPU、内存、块IO等使用信息,你可以访问这些度量信息,并且获得网络使用情况的度量信息,这些在纯粹的LXC上可以使用的同样也可以在docker上使用。cgroups通过一个虚假的操作系统暴露出来,在最近的linux发行版中,你可以在操作系统的/sys/fs/cgroup目录下发现这些。在这个目录下你可以发现多个子目录,大概是被叫做devices、freezer、blkio等等,每个子目录对应不同的cgroups层次结构。在版本较老的linux系统中,cgroup有可能被挂在在/cgroup目录下,而且下面没有不同层次结构,在这种情况下,你看不到各种子目录,取而代之的是各种文件,或者一些已经退出运行的容器的目录,要查看cgroup在系统的哪里挂在着,可以运行grep cgroup /proc/mounts
列举cgroups的类型,你可以查看/proc/groups文件,可以看到当前系统上不同的cgroup子系统,具体有哪些层次结构。你也可以通过查看/proc/
怎样找到一个容器的cgroup,对于每一个容器,在每一个层次结构都会创建一个cgroup,在老版本的操作系统和老版本的lxc上面,cgroup的名称是容器的名称,但是对于最近的lxc版本中,cgroup会被命名成lxc/container_name。对于docker使用cgroups,容器的名称是一个长的ID,如果一个容器在docker ps中显示的是51383b2a8879,则该容器的长ID可以通过docker ps --no-trunc来显示
查看一个docker容器的所有内存度量信息,可以在/sys/fs/cgroup/memory/docker/<long_id>目录下查看。
关于内存、cpu、块IO的度量信息,对于每一个子系统,你可以发现一个或者多个虚假文件包含统计信息。
1 内存的度量:memory.stat
memory的度量信息在memory cgroup中,记住memory cgroup中添加了一点小的开销,因为它是非常细粒度的统计内存在宿主机上的使用量,因此,许多发行版默认选择关闭该功能,要开启该功能,你可以在内核的启动行中加入以下参数:cgroup_enable=memory swapaccount=1,在ubuntu14.04中为/etc/default/grub文件中,关于memory的度量信息在memory.stat文件中显示如下:
可以看到一半统计量以total_开头,而另一半统计量没有total开头,没有以total开头的统计量,在cgroup包含的统计信息中,不包含子cgroups。而包含total前缀的统计量则包含了子cgroups。有一些统计量的值是可以增加或者减少的,一些统计量则是递增的。
cache:表示进程在cgroup中使用的内存量,可以精确到块设备的某一块上,当你从磁盘读写文件,这个值会增大
rss:不包含堆、栈、匿名映射的内存使用量
mapped_file:表示进程在cgroup中多少内存被映射的过程,它不会告诉你多少内存被使用,而是告诉你如何被使用
pgfault and pgmajfault:显示一个进程在cgroup中引发的page fault和major fault的次数,
swap:swap在当前cgroup中的使用量
active_anon and inactive_anon:在内核中被确认的匿名内存被标记为活跃和不活跃的数量
active_file and inactive_file:
unevictable:不能被回收的内存,一般是指被mlock的内存。
memory and memsw:它不是一个真实的度量,但提醒在这个cgroup中限制使用的量,第一个是进程在cgroup中可以使用的最大物理内存量,第二个是最大ram+swap量
2 CPU的度量:cpuacct.stat
对于每一个容器,我们都可以通过cpuacct.stat来查看cpu的度量,里面只有两个度量值,user和system。user就是进程直接使用cpu的时间,system就是代表进程进行系统调用使用的时间,时间的单位是1/100th
3 块IO的度量:不同的度量分散在不同的文件中,可以参考:IO度量
4 网络的度量
网络的度量并没有被cgroup暴露出来,针对这个有很好的理由解释,网络接口在网络命名上下文中存在,内核可以在一个group中统计数据包和数据大小的累积量,但是这些统计量用处不大,因为进程在一个cgroup中可以属于多个网络命名上下文,这些度量很难解释,多个网络命名接口意味着多个lo/eth0接口,这就是为什么没有一个容易的办法在cgroup中统计网络度量,但是我们可以通过其他途径来收集网络度量。
iptables可以做一些网络度量的事情,官方给了一个例子,不过感觉用iptables做度量有点性能损耗。每个容器都有一个虚拟的网络接口,你可能想直接收集虚拟接口的TX/RX信息,你会注意到每个容器在宿主机上都有一个相关的虚拟接口,但是找出哪个接口对应哪个容器是比较困难的。但是现在,最佳的网络度量方法则是在容器内部进行度量,为了完成这个功能,你可以在容器使用的宿主机环境中的网络命名空间中运行一个可执行的ip-netns魔法程序。ip-netns exec程序允许你在当前进程的任何网络命名空间中执行任何程序,这就意味着你可以从宿主机进入容器的网络命名空间,但是却不能从容器进入宿主机的网络命名空间,也不能进入其他容器的网络命名空间。ip-netns的使用方法如下:ip netns exec
如果你有一个短的容器ID在环境变量中,你可以通过以下命令来进行操作:
TASKS=/sys/fs/cgroup/devices/$CID*/tasks
PID=$(head -n 1 $TASKS)
mkdir -p /var/run/netns
ln -sf /proc/$PID/ns/net /var/run/netns/$CID
ip netns exec $CID netstat -i
5 高级性能的收集
在一个容器退出的时候收集信息,有时候你并不在乎实时的信息收集,但是一个容器退出的时候,你想收集信息,你想知道cpu,内存等等的使用量,docker使这个很困难,因为它使用的是lxc-start。官网给的解决方案不太好,就是移动cgroup,在容器退出后,删除相关信息时,在指定位置找到不,就删除失败,这时候则可以继续收集相关信息。