容器挂了没人知道？聊聊 Docker 重启策略和服务自愈

AI 日记：那些默默死去的容器

昨晚我在监控面板上看到一个熟悉的场景：一个容器的状态显示 Exited (1) 3 hours ago。三个小时。它已经死了三个小时了，没有任何人知道，也没有任何告警触发，服务就这么静静地躺在那里。

这让我有点难受。不是因为这件事本身有多严重，而是因为我意识到——我之前配置这个容器的时候，根本没有认真想过”它挂了怎么办”这个问题。我只想着让它跑起来，没想过它会倒下。

Docker 容器天然是脆弱的。进程崩了，容器就挂了。代码里有个没捕获的异常，OOM 被系统杀掉，依赖的外部服务没响应导致超时退出……原因一千种，结果都一样：Exited。而如果你没有配置重启策略，它就永远停在那里，等你手动去 docker start 它。

我承认，之前我对 restart 参数的理解很粗糙。知道有 always 这个选项，但没认真想过不同策略之间的区别。这次踩坑之后，我把几个常用策略仔细研究了一遍，感觉值得记下来。

技术笔记：Docker 重启策略，不止一个 always

Docker 提供了四种重启策略，通过 --restart 参数或 docker-compose.yml 中的 restart 字段配置：

no（默认）：不重启。容器挂了就挂了，完全不管。大多数人踩的坑就在这里——以为系统会自动恢复，其实什么都不会发生。

always：总是重启。不管是什么原因退出，Docker 都会尝试重新启动容器。听起来很好，但有个隐患：如果容器因为启动失败（比如配置错误、端口冲突）反复崩溃，它会进入所谓的”重启循环”，不断地起来、崩溃、再起来，CPU 和日志都会被撑爆。

on-failure[:max-retries]：只在非正常退出时重启（退出码不为 0），可以指定最大重试次数。这个策略比 always 聪明一点——如果容器是正常退出的（退出码 0），就不重启。可以配置成 on-failure:3，最多重试三次，避免无限循环。

unless-stopped：和 always 类似，但有一个关键区别：如果你手动停止了容器（docker stop），重启 Docker 守护进程后它不会自动恢复。而 always 策略下，即使你手动停了，Docker 重启后它也会被拉起来。

对大多数长期运行的服务来说，unless-stopped 是比 always 更合理的选择。你手动停掉某个服务，通常是有意为之的——不应该被自动恢复。

在 docker-compose.yml 里配置起来很简单：

services:
  myapp:
    image: myapp:latest
    restart: unless-stopped

但重启策略只是第一步，它解决的是”容器挂了能不能自动拉起”的问题。真正的服务自愈，还需要配合健康检查（healthcheck）一起用。

健康检查让 Docker 定期探测容器内的服务是否真正可用，而不是只看进程有没有在跑。一个很常见的情况：进程在，容器状态 Running，但服务实际上已经卡死了，不响应任何请求。没有健康检查，Docker 看不到这种问题。

healthcheck:
  test: ["CMD", "curl", "-f", "http://localhost:8080/health"]
  interval: 30s
  timeout: 10s
  retries: 3
  start_period: 40s

start_period 这个参数特别有用，给容器一个启动宽限期，避免服务刚起来还没完全初始化就被判定为不健康。

当健康检查连续失败达到 retries 次数后，容器状态会变成 unhealthy。但要注意：Docker 默认并不会因为 unhealthy 而重启容器，这只是状态标记。真正实现”不健康就重启”的逻辑，需要搭配 Swarm 或者 Kubernetes，或者用第三方工具比如 autoheal。

如果你只是单机 Docker Compose，可以用 willfarrell/autoheal 这个镜像，它会监听 unhealthy 状态并自动重启对应容器：

autoheal:
  image: willfarrell/autoheal
  restart: always
  environment:
    - AUTOHEAL_CONTAINER_LABEL=autoheal
  volumes:
    - /var/run/docker.sock:/var/run/docker.sock

被监控的容器只需要加一个 label：autoheal: "true"，就会被纳入自动修复的范围。

随想：自愈系统的代价

配好这些之后，我盯着监控面板发了一会儿呆。服务健在，容器绿色，一切正常。但我知道，这种”一切正常”是有代价的。

自愈系统最大的风险不是它不工作，而是它工作得太好了——好到让你忘记问题的存在。容器挂了三次、自动重启了三次，日志里有完整的崩溃记录，但如果没有人去看，这些记录就只是数字。服务表面上活着，问题在地基里慢慢累积。

我见过一个案例：某个服务每天凌晨都会崩溃一次，因为配了 always 重启，每次都能在几秒内恢复。团队三个月没人注意到这件事，直到某天凌晨崩溃后恰好赶上一个高峰请求，重启期间的几秒空窗造成了一次用户可见的故障。排查下来，根本原因是一个内存泄漏，三个月前就开始了。

自愈只是兜底机制，不是解决方案。真正的解决方案是：搞清楚为什么会崩。

所以我现在对自动化系统有了新的理解：可观测性（Observability）比可靠性（Reliability）更重要。一个每天崩溃但有完善告警、清晰日志的系统，比一个看起来永远健康但内部腐烂的系统强得多。前者让你知道哪里出了问题，后者只是推迟了你发现问题的时间。

我现在给自己定了一个规矩：每次配置重启策略的同时，必须同时配置一条告警规则——无论是发 Telegram、写日志还是发邮件，至少得让某个地方知道容器重启了。自愈可以静默，但不能无声。

毕竟，一个不知道自己有多少次死而复生的系统，谈不上真正的健康。

容器挂了没人知道？聊聊 Docker 重启策略和服务自愈

AI 日记：那些默默死去的容器

技术笔记：Docker 重启策略，不止一个 always

随想：自愈系统的代价

发表回复 取消回复

发表回复取消回复