搜档网
当前位置:搜档网 › Docker容器原理与实现

Docker容器原理与实现

Docker容器原理与实现
Docker容器原理与实现

Docker容器的原理与实现

周成玉

【摘要】Linux容器(Linux Container,LXC)是docker的核心技术之一,LXC利用chroot、namespace 和cgroup等技术实现资源的隔离和配额,文章剖析了LXC的原理和实现。

【关键词】chroot, namespace, cgroup, LXC

1、概述

海关已经广泛使用虚拟机技术多年,IT资源利用率得到有效提高。近年来,基于Docker的轻量级虚拟化技术正成为IT技术热点之一。与传统虚拟机相比,Docker技术本质上是一种LXC引擎。VM和LXC 关注的问题都是资源的隔离和配额,VM采用CPU、memory、disk等硬件虚拟化技术,LCX则借助了chroot、namespace和cgroups等系统调用。

2、LXC的资源隔离

2.1、chroot

chroot(change root directory,更改root目录),最早在1979年的Unix V7使用,并在各个版本的linux 系统中得以保留。在linux系统中,系统默认的目录结构都是以“/”,即根(root)开始的。

通过使用chroot,系统读取到的目录和文件将不在是旧系统根下的而是指定的新位置下的目录结构和文件,这样带来两个好处:

(1)增加系统的安全性,限制用户权力。经过chroot之后,在新根下将访问不到旧系统的根目录结构和文件,这样就增强了系统的安全性。在登录(login)前使用chroot,阻止用户访问特定目录。

(2)建立一个与原系统隔离的系统目录结构,方便用户的开发。使用chroot后,系统读取的是新根下的目录和文件,这是一个与原系统根下文件不相关的目录结构。在这个新的环境中,可以用来测试软件的静态编译以及一些与系统不相关的独立开发。

Docker就是利用chroot功能,实现每个容器里看到的文件系统都是一个完整的linux系统。下面来看一个简单shell脚本,将某个进程及其子进程访问根目录限制在“/home/container”目录,该进程及其子进程

将不能访问linux系统的其他目录。

先创建目录/home/container,将bash、ls和pwd三个shell命令及运行这三个命令需要的库复制到对应目录。脚本如下:

执行脚本后,在/home下增加了container文件系统,如下图蓝色部分所示:

执行chroot /home/container /bin/bash后,会启动一个bash进程,这个进程及其所有子进程对应的根目录就限制在“/home/container”,且对于它们而言,就认为是自己的根目录。

执行命令结果如下:

由于进程的根(对应物理机系统的/home/container)下面只有bash、pwd和ls三个命令,子进程不能访问物理机的其他命令,所以当执行clear命令时就会报“command not found”错。可见,chroot有效地

限制了进程访问操作系统文件系统的权限。

2.2、namespace

Namespace是Linux核功能,用来隔离各种系统资源,比如进程树、用户号、网络接口、挂载点等。当一台物理机同时运行多个应用时,有些用户会访问、修改或关闭他应用的某些资源,这样就会导致各个应用之间互相干扰。通过使用Namespace,系统就可以做到各种资源隔离。

namespace建立系统的不同视图(可以理解为简易容器),每个namespace用户看起来,像单独的一台Linux计算机,有自己的init进程(PID为1),其他进程的PID依次递增。如图所示,namespace A和namespace B都有PID为1的init进程,子容器的进程映射到父容器的进程上,父容器可以知道每一个子容器的运行状态,而子容器与子容器之间是隔离的。图中,进程3在父命名空间里面PID 为3,但是在namespace A就是1,也就是说namespace A用户看到的进程3就像init 进程一样,认为这是自己的初始化进程,但是从整个操作系统来看,它只是3号进程虚拟化出来的一个namespace而已。

当前Linux一共实现六种不同类型的namespace,分别是mount、UTS、IPC、PID、network、User等的隔离机制。各种类型namespace实现的功能和发行系统版本关系如下:

Namespace 系统调用参数隔离容核版本

Mount CLONE_NEWNS 挂载点(文件系统)Linux 2.4.19

UTS CLONE_NEWUTS 主机名与域名Linux 2.6.19

IPC CLONE_NEWIPC 进程间通信Linux 2.6.19

PID CLONE_NEWPID 进程编号Linux 2.6.24

Network CLONE_NEWNET 网络设备、网络栈、端口等Linux 2.6.29

User CLONE_NEWUSER 用户和用户组Linux 3.8

下面利用一个简单程序,剖析使用namespace进行资源隔离的方法。代码如下:

执行这段c语言代码会建立了一个namespace,这个namespace的初始化进程是bash,用ps命令查看bash对应的进程号为1。代码显示的3591进程号是指这个bash进程在物理机系统的进程号。

从物理机Linux系统看,执行c语言的进程号是3590,namespace中bash的进程号是3591。

从执行结果看,程序对挂载点、主机名和进程等进行namespace隔离。程序运行后,sethostname将主机名修改为container,物理机linux主机名仍然为centos-1;namespace进程与物理机linux系统之间的进程也进行了隔离,这个namespace进程就形成了一个容器的最小核。如果需要这个容器具有更多的功能模块,可以在容器的文件系统(对应物理机/home/container以下目录)创建对应shell命令或者应用程序。这样,这个namespace小程序启动后,系统就会出现一个功能比较丰富的容器环境。

在完整docker实际运行环境,系统将各种功能代码封装到一个镜像文件中,再采用aufs挂载的方式提供给容器使用。这样既满足功能要求,又提升了发布和迁移的效率。

3、LXC的资源配额

采用chroot和namespace,系统实现了对容器的进程、主机名、文件系统、网络等资源隔离,但是容器仍然可以没有限制地使用所有资源。此时,如果物理机同时运行多个容器,就存在抢占资源,导致物理机瘫痪的风险。所以,要实现一个强壮的容器,就必须对容器使用的资源进行配额管理。

cgroups 是Linux核提供限制进程资源的一种机制,可以用于对cpu和存等资源的精细化控制。开发者利用cgroups可以限制进程资源的使用,比如:cgroups可以将应用消耗的计算资源限制某几个CPU、甚至某个CPU的特定比率。Docker也就使用了cgroups来完成cpu和存等部分的资源控制。

下面这段C程序,先打印出运行进程号,接着的死循环会消耗大量CPU资源。

程序运行后,进程号是13649,结果如下:

再用top命令,查看系统cpu资源情况发现,13649进程消耗了一核CPU的99.8%。

通过使用cgroups机制可以限制上述死循环程序占用CPU资源的上限。具体操作是在“/cgroup/cpu”目录新建eatcpugroup目录,并把要控制的cpu上限值30000(表示30%使用上限)和进程号13649加入“cpu.cfs_quota_us”和“tasks”这两个文件。脚本如下:

针对13649进程cgroup机制建立后,13649进程CPU消耗了下降到30.6%。

除对CPU使用率进行限制外,cgroup还具有利用memory子系统限制进程的存使用量、利用blkio 子系统限制进程的块设备读写、利用devices 子系统控制进程能够访问的设备、利用net_cls子系统限制进程的网络数据包、利用ns子系统限制进程使用不同namespace等功能。

4、简易容器实现

接下来的程序将chroot、namespace和cgroups结合运用,就实现了一个简单的容器。

上述程序运行后,就创建一个简易容器环境。这个容器的初始化进程是bash,后续所有子进程能够访问的文件系统控制在物理机的/home/container目录映射的根目录下,同时利用namespace对子进程等进行了隔离,并通过cgroup对这个进程及其所有子进程使用cpu资源进行了限制。在这个容器的后台运行刚才消耗cpu的应用,进程1对应bash,它的子进程2对应eatcpu.out这个程序,具体如下图所示:

从物理机的linux系统看,democontainer的进程号为3289、它的子进程bash的进程号是3293、bash 的子进程eatcpu的进程号是3294,具体如下图所示:

物理机和容器之间的进程映射关系如下:

虽然eatcpu.out程序非常消耗CPU资源,不进行限制时很快就会将CPU资源100%消耗,但是由于cgroup对3289号进程(democontainer.out)进行了CPU使用率40%的限制,那么进程3289的所有子进程的CPU使用消耗总和不能超过这个限制,当前只有eatcpu.out消耗CPU,所以这个进程就消耗了40%的CPU资源。结果如下图所示:

如果同时启动两个etacpu.out,那么它们各自可以分到20%左右的CPU资源,结果如下图:

5、小结

Docker容器的核心就是资源的隔离和配额,文章对docker容器中资源隔离和配额进行了剖析,讲解了原理,并基于C语言实现了一个简单的容器。

相关主题