容器健康检查详解

我们容器集群内核基于kubernetes，kubernetes支持对容器进行周期性的探测，根据探测结果来决定判断容器的健康状态，并执行额外的操作。当我们创建服务时，在容器参数页的高级设置选项里面，可以为容器设置健康检查。

健康检查类别

容器存活检查。该检查方式用于检测容器是否活着，类似于我们执行ps检查进程是否存在。如果容器的存活检查失败，集群会对该容器执行重启操作，检查成功则不执行任何操作。
容器就绪检查。该检查方式用于检测容器是否准备好开始处理用户请求，一些程序的启动时间可能很长，比如要加载磁盘数据或者依赖外部的某个模块启动完成时才提供服务，这时候程序进程在，但是并不能对外提供服务。这种场合下该检查方式就非常有用。如果容器的就绪检查失败，集群会屏蔽请求访问该容器，否则会放开对该容器的访问。

健康检查方式

TCP端口探测

TCP端口探测的原理是，对于提供TCP通信服务的容器，集群周期性地对该容器建立TCP连接，如果连接成功，则认为探测成功，否则认为探测失败。选择TCP端口探测方式，必须指定容器监听的端口。比如我们有一个redis容器，它的服务端口是6379，我们对该容器配置了TCP端口探测，指定探测端口为6379，那么集群会周期性地对该容器的6379端口发起TCP连接，如果连接成功则认为检查成功，否则认为检查失败。

HTTP请求探测

HTTP请求探测针对的是提供HTTP或者HTTPS服务的容器，集群周期性地对该容器发起HTTP/HTTPS GET请求，如果HTTP/HTTPS response返回码的范围在200~399，则认为探测成功，否则认为探测失败。使用HTTP请求探测必须指定容器监听的端口和HTTP/HTTPS的请求路径。举个例子，我们的容器提供了HTTP服务，服务端口为80，我们的HTTP检查路径为/health-check，那么集群会周期性地对容器发起 GET http://containerIP:80/health-check 请求。

执行命令检查

执行命令检查是一种强大的检查方式，该方式要求用户指定一个容器内的可执行命令，集群会周期性地在容器内执行该命令，如果命令的返回结果是0则认为检查成功，否则认为检查失败。
对于上面提到的TCP端口探测和HTTP请求探测，都可以通过执行命令检查的方式来替代：

对于TCP端口探测，我们可以写一个程序来对容器的端口进行connect，如果connect成功，脚本返回0，否则返回-1。
对于HTTP请求探测，我们可以写一个脚本来对容器进行wget，wget http://127.0.0.1:80/health-check，并检查返回的response，如果code在200~399的范围，脚本返回0，否则返回-1。

注意： 必须把要执行的程序放在容器的镜像里面，否则会因找不到程序而执行失败。

注意: 如果执行的命令是一个shell脚本，不能直接指定脚本作为执行命令，需要加上脚本的解释器。比如我们脚本是/data/scripts/health_check.sh，那么我们使用执行命令检查时，指定的程序应该是 "sh /data/scripts/health_check.sh"。究其原因，是因为集群在执行容器里的程序时，不在终端环境。

其它公共参数

启动延时，单位秒。该参数指定了容器启动后，多久开始探测。例如启动延时设置成5，那么健康检查将在容器启动5秒后开始。
间隔时间，单位秒。该参数指定了健康检查的频率。例如间隔时间设置成10，那么集群会每隔10s检查一次。
响应超时，单位秒。该参数指定了健康探测的超时时间，对应到TCP端口探测、HTTP请求探测、执行命令检查三种方式，分别表示TCP连接超时时间、HTTP请求响应超时时间，以及执行命令的超时时间。
健康阈值，单位次数。该参数指定了健康检查连续成功多少次后，才判定容器是健康的。例如健康阈值设置成3，只有满足连续三次探测都成功才认为容器是健康的。 注意: 如果健康检查的类型为存活检查，那么健康阈值只能是1，用户设置成其它值将被视为无效，因为只要探测成功一次，我们就能确定容器是存活的。
不健康阈值，单位次数。该参数指定了健康检查连续失败多少次后，才判断容器是不健康的。例如不健康阈值设置成3，只有满足连续三次都探测失败了，才认为容器是不健康的。

相关推荐

文章来源于腾讯云开发者社区，点击查看原文