部署模式

概述

生产环境部署工作流和 CI/CD 最佳实践，涵盖部署策略（滚动更新、蓝绿部署、金丝雀发布）、Docker 容器化、健康检查、回滚策略以及生产就绪检查清单。

适用场景

搭建 CI/CD 流水线（Pipeline）
容器化应用
规划部署策略（蓝绿部署、金丝雀发布、滚动更新）
实现健康检查和就绪探针（Readiness Probes）
准备生产发布
配置环境特定的设置

部署策略

滚动部署（Rolling Deployment） -- 默认策略

逐步替换实例 -- 旧版本和新版本在发布期间同时运行。

实例 1: v1 -> v2  (首先更新)
实例 2: v1        (仍在运行 v1)
实例 3: v1        (仍在运行 v1)

实例 1: v2
实例 2: v1 -> v2  (其次更新)
实例 3: v1

实例 1: v2
实例 2: v2
实例 3: v1 -> v2  (最后更新)

优点： 零停机、逐步发布 缺点： 两个版本同时运行 -- 需要向后兼容的变更 适用场景： 标准部署、向后兼容的变更

蓝绿部署（Blue-Green Deployment）

运行两个完全相同的环境，原子切换流量。

蓝色 (v1) <- 流量
绿色 (v2)   空闲，运行新版本

# 验证通过后：
蓝色 (v1)   空闲（变为备用）
绿色 (v2) <- 流量

优点： 即时回滚（切回蓝色）、干净切换 缺点： 部署期间需要 2 倍基础设施 适用场景： 关键服务、对问题零容忍

金丝雀部署（Canary Deployment）

先将一小部分流量路由到新版本。

v1: 95% 流量
v2:  5% 流量  (金丝雀)

# 如果指标良好：
v1: 50% 流量
v2: 50% 流量

# 最终：
v2: 100% 流量

优点： 在全量发布前用真实流量发现问题 缺点： 需要流量分割基础设施和监控 适用场景： 高流量服务、风险变更、功能标志（Feature Flags）

Docker 多阶段构建

Node.js Dockerfile

# 阶段 1：安装依赖
FROM node:22-alpine AS deps
WORKDIR /app
COPY package.json package-lock.json ./
RUN npm ci --production=false

# 阶段 2：构建
FROM node:22-alpine AS builder
WORKDIR /app
COPY --from=deps /app/node_modules ./node_modules
COPY . .
RUN npm run build
RUN npm prune --production

# 阶段 3：生产镜像
FROM node:22-alpine AS runner
WORKDIR /app

RUN addgroup -g 1001 -S appgroup && adduser -S appuser -u 1001
USER appuser

COPY --from=builder --chown=appuser:appgroup /app/node_modules ./node_modules
COPY --from=builder --chown=appuser:appgroup /app/dist ./dist
COPY --from=builder --chown=appuser:appgroup /app/package.json ./

ENV NODE_ENV=production
EXPOSE 3000

HEALTHCHECK --interval=30s --timeout=3s --start-period=5s --retries=3 \
  CMD wget --no-verbose --tries=1 --spider http://localhost:3000/health || exit 1

CMD ["node", "dist/server.js"]

Go Dockerfile

FROM golang:1.22-alpine AS builder
WORKDIR /app
COPY go.mod go.sum ./
RUN go mod download
COPY . .
RUN CGO_ENABLED=0 GOOS=linux go build -ldflags="-s -w" -o /server ./cmd/server

FROM alpine:3.19 AS runner
RUN apk --no-cache add ca-certificates
RUN adduser -D -u 1001 appuser
USER appuser

COPY --from=builder /server /server

EXPOSE 8080
HEALTHCHECK --interval=30s --timeout=3s CMD wget -qO- http://localhost:8080/health || exit 1
CMD ["/server"]

Python/Django Dockerfile

FROM python:3.12-slim AS builder
WORKDIR /app
RUN pip install --no-cache-dir uv
COPY requirements.txt .
RUN uv pip install --system --no-cache -r requirements.txt

FROM python:3.12-slim AS runner
WORKDIR /app

RUN useradd -r -u 1001 appuser
USER appuser

COPY --from=builder /usr/local/lib/python3.12/site-packages /usr/local/lib/python3.12/site-packages
COPY --from=builder /usr/local/bin /usr/local/bin
COPY . .

ENV PYTHONUNBUFFERED=1
EXPOSE 8000

HEALTHCHECK --interval=30s --timeout=3s CMD python -c "import urllib.request; urllib.request.urlopen('http://localhost:8000/health/')" || exit 1
CMD ["gunicorn", "config.wsgi:application", "--bind", "0.0.0.0:8000", "--workers", "4"]

Docker 最佳实践

推荐做法：

使用特定版本标签（node:22-alpine，而不是 node:latest）
多阶段构建以最小化镜像大小
以非 root 用户运行
先复制依赖文件（利用层缓存）
使用 .dockerignore 排除 node_modules、.git、tests
添加 HEALTHCHECK 指令
在 docker-compose 或 K8s 中设置资源限制

反面做法：

以 root 身份运行
使用 :latest 标签
在一个 COPY 层中复制整个仓库
在生产镜像中安装开发依赖
在镜像中存储密钥（应使用环境变量或密钥管理器）

CI/CD 流水线

GitHub Actions（标准流水线）

name: CI/CD

on:
  push:
    branches: [main]
  pull_request:
    branches: [main]

jobs:
  test:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - uses: actions/setup-node@v4
        with:
          node-version: 22
          cache: npm
      - run: npm ci
      - run: npm run lint
      - run: npm run typecheck
      - run: npm test -- --coverage
      - uses: actions/upload-artifact@v4
        if: always()
        with:
          name: coverage
          path: coverage/

  build:
    needs: test
    runs-on: ubuntu-latest
    if: github.ref == 'refs/heads/main'
    steps:
      - uses: actions/checkout@v4
      - uses: docker/setup-buildx-action@v3
      - uses: docker/login-action@v3
        with:
          registry: ghcr.io
          username: ${{ github.actor }}
          password: ${{ secrets.GITHUB_TOKEN }}
      - uses: docker/build-push-action@v5
        with:
          push: true
          tags: ghcr.io/${{ github.repository }}:${{ github.sha }}
          cache-from: type=gha
          cache-to: type=gha,mode=max

  deploy:
    needs: build
    runs-on: ubuntu-latest
    if: github.ref == 'refs/heads/main'
    environment: production
    steps:
      - name: 部署到生产环境
        run: |
          # 平台特定的部署命令
          # Railway: railway up
          # Vercel: vercel --prod
          # K8s: kubectl set image deployment/app app=ghcr.io/${{ github.repository }}:${{ github.sha }}
          echo "Deploying ${{ github.sha }}"

流水线阶段

PR 打开时：
  代码检查 -> 类型检查 -> 单元测试 -> 集成测试 -> 预览部署

合并到 main 时：
  代码检查 -> 类型检查 -> 单元测试 -> 集成测试 -> 构建镜像 -> 部署预发环境 -> 冒烟测试 -> 部署生产环境

健康检查（Health Checks）

健康检查端点

// 简单健康检查
app.get("/health", (req, res) => {
  res.status(200).json({ status: "ok" });
});

// 详细健康检查（用于内部监控）
app.get("/health/detailed", async (req, res) => {
  const checks = {
    database: await checkDatabase(),
    redis: await checkRedis(),
    externalApi: await checkExternalApi(),
  };

  const allHealthy = Object.values(checks).every(c => c.status === "ok");

  res.status(allHealthy ? 200 : 503).json({
    status: allHealthy ? "ok" : "degraded",
    timestamp: new Date().toISOString(),
    version: process.env.APP_VERSION || "unknown",
    uptime: process.uptime(),
    checks,
  });
});

async function checkDatabase(): Promise<HealthCheck> {
  try {
    await db.query("SELECT 1");
    return { status: "ok", latency_ms: 2 };
  } catch (err) {
    return { status: "error", message: "数据库不可达" };
  }
}

Kubernetes 探针

livenessProbe:
  httpGet:
    path: /health
    port: 3000
  initialDelaySeconds: 10
  periodSeconds: 30
  failureThreshold: 3

readinessProbe:
  httpGet:
    path: /health
    port: 3000
  initialDelaySeconds: 5
  periodSeconds: 10
  failureThreshold: 2

startupProbe:
  httpGet:
    path: /health
    port: 3000
  initialDelaySeconds: 0
  periodSeconds: 5
  failureThreshold: 30    # 30 * 5s = 最长 150 秒启动时间

环境配置

十二要素应用模式（Twelve-Factor App Pattern）

# 所有配置通过环境变量 -- 永远不在代码中硬编码
DATABASE_URL=postgres://user:pass@host:5432/db
REDIS_URL=redis://host:6379/0
API_KEY=${API_KEY}           # 由密钥管理器注入
LOG_LEVEL=info
PORT=3000

# 环境特定的行为
NODE_ENV=production          # 或 staging, development
APP_ENV=production           # 显式应用环境

配置验证

import { z } from "zod";

const envSchema = z.object({
  NODE_ENV: z.enum(["development", "staging", "production"]),
  PORT: z.coerce.number().default(3000),
  DATABASE_URL: z.string().url(),
  REDIS_URL: z.string().url(),
  JWT_SECRET: z.string().min(32),
  LOG_LEVEL: z.enum(["debug", "info", "warn", "error"]).default("info"),
});

// 启动时验证 -- 配置错误时快速失败（Fail Fast）
export const env = envSchema.parse(process.env);

回滚策略

即时回滚

# Docker/Kubernetes：指向上一个镜像
kubectl rollout undo deployment/app

# Vercel：推广上一个部署
vercel rollback

# Railway：重新部署上一个提交
railway up --commit <previous-sha>

# 数据库：回滚迁移（如果可逆）
npx prisma migrate resolve --rolled-back <migration-name>

回滚检查清单

上一个镜像/制品可用且已标记
数据库迁移向后兼容（无破坏性变更）
功能标志（Feature Flags）可以在不部署的情况下禁用新功能
已配置错误率飙升的监控告警
在生产发布前已在预发环境测试过回滚

生产就绪检查清单

应用

所有测试通过（单元测试、集成测试、端到端测试）
代码或配置文件中没有硬编码的密钥
错误处理覆盖所有边界情况
日志是结构化的（JSON）且不包含个人身份信息（PII）
健康检查端点返回有意义的状态

基础设施

Docker 镜像可复现构建（固定版本）
环境变量已文档化并在启动时验证
已设置资源限制（CPU、内存）
已配置水平扩展（最小/最大实例数）
所有端点启用 SSL/TLS

监控

已导出应用指标（请求速率、延迟、错误率）
已配置错误率超阈值的告警
已设置日志聚合（结构化日志、可搜索）
已在健康端点上设置可用性监控

安全

已扫描依赖的 CVE 漏洞
CORS 仅配置了允许的来源
已在公共端点启用速率限制（Rate Limiting）
已验证认证和授权
已设置安全头（CSP、HSTS、X-Frame-Options）

运维

回滚方案已记录并测试
数据库迁移已在生产级别数据上测试
常见故障场景的运行手册已就绪
已定义值班轮换和升级路径

部署模式

部署模式

概述

适用场景

部署策略

滚动部署（Rolling Deployment） -- 默认策略

蓝绿部署（Blue-Green Deployment）

金丝雀部署（Canary Deployment）

Docker 多阶段构建

Node.js Dockerfile

Go Dockerfile

Python/Django Dockerfile

Docker 最佳实践

CI/CD 流水线

GitHub Actions（标准流水线）

流水线阶段

健康检查（Health Checks）

健康检查端点

Kubernetes 探针

环境配置

十二要素应用模式（Twelve-Factor App Pattern）

配置验证

回滚策略

即时回滚

回滚检查清单

生产就绪检查清单

应用

基础设施

监控

安全

运维

相关技能 Related Skills

DevOps 工程师（DevOps Engineer）

检查点管理（Checkpoint Management）

云基础设施安全（Cloud Infrastructure Security）