第 67 章

SSO/SAML + SCIM：Okta / Microsoft Entra ID / Google Workspace 企业接入

第六十七章：Prompt 版本管理：GitOps 思维下的 Prompt 工程化实践

67.1 Prompt 也是代码

在 AI 应用的早期探索阶段，prompt 往往被视为一种"黑魔法"——工程师通过反复试验找到一个有效的 prompt 文本，然后将它硬编码在代码里，或者随意存放在某个配置文件中，很少有人认真考虑版本控制的问题。

但随着 AI 应用逐渐走向生产，这种粗放的管理方式的代价开始显现：

上周修改了 prompt 的措辞，今天发现效果变差了，但已经不记得改了什么
团队里有三个人各自维护着同一个功能的不同版本的 prompt
上线新 prompt 后，某些用例的输出质量下降了，但不知道怎么回滚
无法对新旧 prompt 做 A/B 测试，不知道改动是否真的有提升

这些问题的根源，在于没有把 prompt 当作软件工程的一等公民来对待。

本章将系统介绍如何将 GitOps 思维引入 prompt 管理，建立从版本控制到 A/B 测试、从 CI/CD 到自动化评估的完整工程体系。

67.2 Prompt 的文件组织结构

目录布局设计

一个成熟的 prompt 仓库应有清晰的目录结构：

prompts/
├── README.md                    # prompt 仓库说明
├── schemas/
│   ├── prompt_manifest.json     # prompt 元数据 Schema
│   └── eval_config.json         # 评估配置 Schema
├── features/
│   ├── customer_service/
│   │   ├── intent_classification/
│   │   │   ├── v1.0.0.yaml
│   │   │   ├── v1.1.0.yaml
│   │   │   └── current -> v1.1.0.yaml  # 符号链接
│   │   └── response_generation/
│   │       ├── v2.0.0.yaml
│   │       └── current -> v2.0.0.yaml
│   ├── code_review/
│   │   └── ...
│   └── document_summary/
│       └── ...
├── shared/
│   ├── persona_base.yaml        # 共享基础人设
│   ├── safety_instructions.yaml # 共享安全指令
│   └── output_formats.yaml      # 共享输出格式
└── experiments/
    └── code_review_v3_test.yaml # 实验性 prompt

Prompt 文件格式

使用 YAML 格式存储 prompt，包含完整的元数据：

# features/customer_service/intent_classification/v1.1.0.yaml

metadata:
  id: "customer_service/intent_classification"
  version: "1.1.0"
  created_at: "2024-11-15T09:30:00Z"
  created_by: "[email protected]"
  description: "将用户问题分类到预定义的意图类别"
  changelog: |
    v1.1.0: 增加了"退款申请"意图类别，改进了歧义处理逻辑
    v1.0.0: 初始版本，支持7个意图类别
  tags:
    - "customer-service"
    - "classification"
    - "production"

model:
  id: "claude-haiku-3-5"
  max_tokens: 256
  temperature: 0.1    # 分类任务用低温度保证稳定性

prompt:
  system: |
    你是一个意图分类助手。你的任务是将用户的客服咨询分类到以下类别之一：
    
    - ORDER_STATUS: 查询订单状态和物流
    - RETURN_REQUEST: 申请退货退款
    - PRODUCT_INQUIRY: 产品信息和规格查询
    - COMPLAINT: 投诉和不满反馈
    - TECHNICAL_SUPPORT: 技术问题和故障排查
    - ACCOUNT_ISSUE: 账户登录和设置问题
    - OTHER: 以上类别均不符合
    
    输出格式：
    {
      "intent": "<类别名称>",
      "confidence": <0-1之间的浮点数>,
      "reason": "<一句话说明分类理由>"
    }
    
    只输出 JSON，不要有任何其他文字。
  
  user_template: |
    用户问题：{{user_message}}

evaluation:
  test_cases_path: "tests/intent_classification_v1.yaml"
  metrics:
    - accuracy
    - avg_confidence
  pass_threshold:
    accuracy: 0.92

dependencies:
  - shared/safety_instructions.yaml

67.3 Git 工作流设计

分支策略

借鉴 Git Flow，为 prompt 定义清晰的分支策略：

main                    # 生产环境使用的 prompt
├── develop             # 开发中的 prompt
│   ├── feature/add-refund-intent    # 功能分支
│   ├── fix/classification-bug       # 修复分支
│   └── experiment/gpt4-comparison  # 实验分支
└── hotfix/urgent-safety-fix        # 紧急修复

Commit Message 规范

为 prompt 变更定义结构化的 commit message：

<type>(<scope>): <description>

[body]

[footer]

类型（type）：

feat: 新增 prompt 或功能
fix: 修复 prompt 中的问题
refactor: 重构 prompt 结构（不影响行为）
perf: 性能优化（如减少 token 用量）
test: 添加或修改测试用例
chore: 维护性工作（如更新元数据）

示例：

feat(intent_classification): 新增退款申请意图类别

在 v1.0.0 中，退款相关咨询经常被错误分类为 ORDER_STATUS，
导致客服路由到错误的处理团队。本次新增 RETURN_REQUEST 类别
并优化了歧义情况的处理逻辑。

测试结果：退款场景准确率从 78% 提升到 96%
影响范围：仅影响 customer_service/intent_classification

Pull Request 工作流

所有 prompt 变更都应通过 PR 流程：

# .github/pull_request_template.md

## Prompt 变更说明

**变更类型**: [ ] feat [ ] fix [ ] refactor [ ] perf

**影响的 Prompt**:
- `features/customer_service/intent_classification/v1.1.0.yaml`

**变更动机**:
> 解释为什么需要这个变更

**变更内容**:
> 描述具体改动了什么

**测试结果**:
| 指标 | 变更前 | 变更后 |
|------|--------|--------|
| 准确率 | 89% | 96% |
| 平均置信度 | 0.81 | 0.87 |

**回滚计划**:
> 如果新版本出现问题，如何快速回滚

**Checklist**:
- [ ] 已更新版本号
- [ ] 已更新 changelog
- [ ] 已添加/更新测试用例
- [ ] 已运行自动化评估
- [ ] 已进行人工审核

67.4 自动化评估 Pipeline

评估框架设计

Prompt 变更的 CI/CD 核心是自动化评估。每次 PR 都应触发评估流水线：

# eval/runner.py

import yaml
import json
from dataclasses import dataclass
from typing import List, Optional
import anthropic

@dataclass
class EvalCase:
    input: dict
    expected_output: str
    metadata: dict

@dataclass
class EvalResult:
    case_id: str
    passed: bool
    score: float
    actual_output: str
    expected_output: str
    latency_ms: float
    error: Optional[str] = None

class PromptEvaluator:
    def __init__(self, client: anthropic.Anthropic):
        self.client = client
    
    def load_test_cases(self, test_file: str) -> List[EvalCase]:
        with open(test_file) as f:
            data = yaml.safe_load(f)
        
        return [
            EvalCase(
                input=case["input"],
                expected_output=case["expected"],
                metadata=case.get("metadata", {})
            )
            for case in data["test_cases"]
        ]
    
    def run_eval(
        self,
        prompt_config: dict,
        test_cases: List[EvalCase],
        metric_functions: dict
    ) -> dict:
        results = []
        
        for i, case in enumerate(test_cases):
            result = self._run_single_case(prompt_config, case, i)
            results.append(result)
        
        # 计算汇总指标
        summary = {}
        for metric_name, metric_fn in metric_functions.items():
            summary[metric_name] = metric_fn(results)
        
        # 判断是否通过阈值
        thresholds = prompt_config.get("evaluation", {}).get("pass_threshold", {})
        passed = all(
            summary.get(metric, 0) >= threshold
            for metric, threshold in thresholds.items()
        )
        
        return {
            "passed": passed,
            "summary": summary,
            "details": [vars(r) for r in results],
            "total_cases": len(results),
            "passed_cases": sum(1 for r in results if r.passed)
        }
    
    def _run_single_case(
        self,
        prompt_config: dict,
        case: EvalCase,
        case_index: int
    ) -> EvalResult:
        import time
        
        # 渲染 prompt 模板
        user_message = self._render_template(
            prompt_config["prompt"]["user_template"],
            case.input
        )
        
        start_time = time.time()
        try:
            response = self.client.messages.create(
                model=prompt_config["model"]["id"],
                max_tokens=prompt_config["model"]["max_tokens"],
                temperature=prompt_config["model"].get("temperature", 0.7),
                system=prompt_config["prompt"]["system"],
                messages=[{"role": "user", "content": user_message}]
            )
            
            actual_output = response.content[0].text
            latency_ms = (time.time() - start_time) * 1000
            
            # 计算得分
            score = self._score_output(actual_output, case.expected_output)
            
            return EvalResult(
                case_id=f"case_{case_index}",
                passed=score >= 0.8,
                score=score,
                actual_output=actual_output,
                expected_output=case.expected_output,
                latency_ms=latency_ms
            )
            
        except Exception as e:
            return EvalResult(
                case_id=f"case_{case_index}",
                passed=False,
                score=0.0,
                actual_output="",
                expected_output=case.expected_output,
                latency_ms=(time.time() - start_time) * 1000,
                error=str(e)
            )
    
    def _render_template(self, template: str, variables: dict) -> str:
        result = template
        for key, value in variables.items():
            result = result.replace(f"{{{{{key}}}}}", str(value))
        return result
    
    def _score_output(self, actual: str, expected: str) -> float:
        """简单的精确匹配评分（可替换为更复杂的评分逻辑）"""
        try:
            actual_json = json.loads(actual)
            expected_json = json.loads(expected)
            
            if actual_json.get("intent") == expected_json.get("intent"):
                return 1.0
            return 0.0
        except json.JSONDecodeError:
            return 0.0

GitHub Actions CI/CD

# .github/workflows/prompt-eval.yml

name: Prompt Evaluation

on:
  pull_request:
    paths:
      - 'prompts/**'

jobs:
  evaluate:
    runs-on: ubuntu-latest
    
    steps:
      - uses: actions/checkout@v4
      
      - name: Setup Python
        uses: actions/setup-python@v4
        with:
          python-version: '3.11'
      
      - name: Install dependencies
        run: pip install anthropic pyyaml pandas
      
      - name: Detect changed prompts
        id: changes
        run: |
          CHANGED=$(git diff --name-only origin/main...HEAD -- 'prompts/**/*.yaml')
          echo "changed_prompts=$CHANGED" >> $GITHUB_OUTPUT
      
      - name: Run evaluations
        env:
          ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_API_KEY }}
        run: |
          python eval/run_ci_eval.py \
            --changed-prompts "${{ steps.changes.outputs.changed_prompts }}" \
            --output-file eval_results.json
      
      - name: Comment PR with results
        uses: actions/github-script@v7
        with:
          script: |
            const fs = require('fs');
            const results = JSON.parse(fs.readFileSync('eval_results.json'));
            
            let comment = '## Prompt Evaluation Results\n\n';
            
            for (const [promptId, result] of Object.entries(results)) {
              const status = result.passed ? '✅ PASSED' : '❌ FAILED';
              comment += `### ${promptId} — ${status}\n`;
              comment += `- Accuracy: ${(result.summary.accuracy * 100).toFixed(1)}%\n`;
              comment += `- Pass threshold: ${result.thresholds.accuracy * 100}%\n\n`;
            }
            
            github.rest.issues.createComment({
              issue_number: context.issue.number,
              owner: context.repo.owner,
              repo: context.repo.repo,
              body: comment
            });
      
      - name: Fail if evaluation fails
        run: |
          python -c "
          import json, sys
          results = json.load(open('eval_results.json'))
          if not all(r['passed'] for r in results.values()):
              sys.exit(1)
          "

67.5 A/B 测试框架

流量分割机制

在生产环境中，A/B 测试允许逐步验证新 prompt 的效果：

import hashlib
from typing import Optional

class PromptABTestManager:
    """
    基于用户 ID 的稳定哈希分流
    保证同一用户始终看到同一版本（粘性分配）
    """
    
    def __init__(self, prompt_store: 'PromptStore'):
        self.prompt_store = prompt_store
        self.experiments: dict = {}
    
    def register_experiment(
        self,
        experiment_id: str,
        control_version: str,
        treatment_version: str,
        traffic_split: float = 0.1,  # 10% 流量给新版本
        metrics: list = None
    ):
        self.experiments[experiment_id] = {
            "control": control_version,
            "treatment": treatment_version,
            "traffic_split": traffic_split,
            "metrics": metrics or ["user_satisfaction", "accuracy"],
            "started_at": datetime.utcnow().isoformat()
        }
    
    def get_prompt_variant(
        self,
        prompt_id: str,
        user_id: str,
        experiment_id: Optional[str] = None
    ) -> tuple[dict, str]:
        """
        返回 (prompt_config, variant_name)
        variant_name: "control" 或 "treatment"
        """
        if not experiment_id or experiment_id not in self.experiments:
            # 没有实验，使用当前版本
            return self.prompt_store.get_current(prompt_id), "control"
        
        experiment = self.experiments[experiment_id]
        
        # 稳定哈希分流
        hash_input = f"{user_id}:{experiment_id}"
        hash_value = int(hashlib.md5(hash_input.encode()).hexdigest(), 16)
        bucket = (hash_value % 100) / 100
        
        if bucket < experiment["traffic_split"]:
            variant = "treatment"
            version = experiment["treatment"]
        else:
            variant = "control"
            version = experiment["control"]
        
        prompt = self.prompt_store.get_version(prompt_id, version)
        return prompt, variant
    
    def record_outcome(
        self,
        experiment_id: str,
        variant: str,
        user_id: str,
        metrics: dict
    ):
        """记录 A/B 测试结果"""
        self.metrics_store.write({
            "experiment_id": experiment_id,
            "variant": variant,
            "user_id": user_id,
            "timestamp": datetime.utcnow().isoformat(),
            **metrics
        })
    
    def analyze_experiment(self, experiment_id: str) -> dict:
        """统计 A/B 测试结果"""
        control_metrics = self.metrics_store.aggregate(
            experiment_id=experiment_id,
            variant="control"
        )
        treatment_metrics = self.metrics_store.aggregate(
            experiment_id=experiment_id,
            variant="treatment"
        )
        
        return {
            "experiment_id": experiment_id,
            "sample_sizes": {
                "control": control_metrics["n"],
                "treatment": treatment_metrics["n"]
            },
            "metrics": {
                metric: {
                    "control": control_metrics[metric],
                    "treatment": treatment_metrics[metric],
                    "lift": (treatment_metrics[metric] - control_metrics[metric]) 
                             / control_metrics[metric]
                }
                for metric in self.experiments[experiment_id]["metrics"]
                if metric in control_metrics and metric in treatment_metrics
            }
        }

渐进式发布（Canary Release）

对于高风险的 prompt 变更，建议采用渐进式发布策略：

class CanaryReleaseManager:
    """
    Prompt 的渐进式发布
    1% → 5% → 20% → 50% → 100% 流量逐步切换
    """
    
    CANARY_STAGES = [
        {"traffic_pct": 1,  "duration_hours": 2,  "error_threshold": 0.05},
        {"traffic_pct": 5,  "duration_hours": 4,  "error_threshold": 0.03},
        {"traffic_pct": 20, "duration_hours": 8,  "error_threshold": 0.02},
        {"traffic_pct": 50, "duration_hours": 12, "error_threshold": 0.02},
        {"traffic_pct": 100,"duration_hours": 0,  "error_threshold": 0.02},
    ]
    
    def advance_canary(self, prompt_id: str, deployment_id: str) -> dict:
        current_stage = self.get_current_stage(deployment_id)
        metrics = self.get_canary_metrics(deployment_id)
        
        if metrics["error_rate"] > current_stage["error_threshold"]:
            # 错误率超阈值，自动回滚
            self.rollback(deployment_id)
            return {"action": "rollback", "reason": "error_rate_exceeded"}
        
        next_stage_idx = self.CANARY_STAGES.index(current_stage) + 1
        if next_stage_idx < len(self.CANARY_STAGES):
            next_stage = self.CANARY_STAGES[next_stage_idx]
            self.set_traffic(prompt_id, next_stage["traffic_pct"])
            return {"action": "advanced", "new_traffic_pct": next_stage["traffic_pct"]}
        
        return {"action": "complete", "message": "Full rollout complete"}

67.6 Prompt 注册中心

集中式 Prompt 存储

生产环境中，所有 prompt 应通过统一的注册中心管理，而非直接读取 Git 仓库：

from typing import Optional
import redis
import yaml

class PromptRegistry:
    """
    集中式 Prompt 注册中心
    - 缓存热点 prompt（Redis）
    - 支持版本历史查询
    - 提供变更通知（Webhook/消息队列）
    """
    
    def __init__(self, git_backend: 'GitPromptBackend', cache: redis.Redis):
        self.git = git_backend
        self.cache = cache
        self.TTL = 300  # 5 分钟缓存
    
    def get(self, prompt_id: str, version: str = "current") -> dict:
        cache_key = f"prompt:{prompt_id}:{version}"
        
        # 尝试缓存命中
        cached = self.cache.get(cache_key)
        if cached:
            return yaml.safe_load(cached)
        
        # 从 Git 加载
        prompt = self.git.load(prompt_id, version)
        
        # 写入缓存
        self.cache.setex(
            cache_key,
            self.TTL,
            yaml.dump(prompt)
        )
        
        return prompt
    
    def publish(self, prompt_id: str, version: str, config: dict):
        """发布新版本"""
        # 写入 Git（通过 PR 流程，不直接写）
        self.git.save(prompt_id, version, config)
        
        # 使缓存失效
        self.cache.delete(f"prompt:{prompt_id}:current")
        self.cache.delete(f"prompt:{prompt_id}:{version}")
        
        # 触发变更通知
        self._notify_subscribers(prompt_id, version)
    
    def _notify_subscribers(self, prompt_id: str, version: str):
        """通知订阅了此 prompt 变更的服务"""
        payload = {
            "event": "prompt_updated",
            "prompt_id": prompt_id,
            "new_version": version,
            "timestamp": datetime.utcnow().isoformat()
        }
        # 发布到消息队列
        self.message_queue.publish("prompt.updates", payload)

67.7 最佳实践总结

Prompt 版本化的黄金规则

1. 永远不要直接修改生产版本 所有修改都通过 PR 流程，在合并到 main 之前经过评估和审核。

2. 版本号语义化 遵循 SemVer（语义化版本）：

Patch（1.0.x）：措辞微调，不影响输出格式
Minor（1.x.0）：新增功能或意图类别
Major（x.0.0）：输出格式或行为的根本性变更

3. 保留历史版本 不要删除旧版本。历史版本是回滚的基础，也是了解 prompt 演进历史的记录。

4. 测试用例与 prompt 同步更新 当 prompt 增加新功能时，测试用例也必须同步增加覆盖。

5. 将 prompt 变更视为高风险代码变更 在代码审查中，prompt 变更需要至少一个熟悉业务场景的人进行审核，不仅仅是技术审查。

常见反模式

反模式 1：在数据库中存储 prompt 但不版本化 数据库中的 prompt 没有历史记录，无法回滚，无法 diff。应使用 Git 作为版本化存储，数据库仅用于查询缓存。

反模式 2：在 prompt 中嵌入业务数据 将公司名称、产品价格等可变业务数据硬编码在 prompt 中，导致业务数据变更时需要修改 prompt 版本。应通过模板变量将业务数据与 prompt 结构分离。

反模式 3：没有回滚预案 每次 prompt 上线前，应明确记录回滚步骤和判断标准（什么情况下触发回滚）。

小结

GitOps 思维下的 prompt 工程化，是将软件工程的最佳实践——版本控制、CI/CD、A/B 测试、渐进式发布——迁移到 prompt 管理领域的系统性实践。

核心认知转变是：prompt 不是配置参数，而是软件逻辑的一部分，理应享有与代码同等严格的工程管控。建立这套体系的短期投入，会在 AI 应用走向成熟的过程中，通过更快的迭代速度、更高的质量稳定性、更低的问题排查成本，持续体现其价值。

本章评分

4.6 / 5 (3 评分)