第 74 章

Claude 特有 Prompt 技巧：XML 标签 / 文档前置 / 并行工具模板的实战手册

第七十四章：元提示（Meta-Prompting）：让 Claude 自动优化你的 Prompt

74.1 什么是元提示

元提示（Meta-Prompting）是指用提示词生成或优化提示词的技术范式。换言之，你不再手动编写 Prompt，而是让 Claude 承担 Prompt 工程师的角色，根据你的任务描述自动生成、评估、迭代优化提示词。

这一概念在 2023-2024 年随着大型语言模型能力的提升而逐渐成熟。当模型具备足够强的元认知能力时——即能够理解和推理语言任务本身的结构——它就可以作为一个自动化的 Prompt 优化引擎。

元提示有三种主要应用模式：

Prompt 生成（Prompt Generation）：给出任务描述，让 Claude 生成初版 Prompt
Prompt 改写（Prompt Rewriting）：给出现有 Prompt 和改进目标，让 Claude 优化它
Prompt 评估（Prompt Evaluation）：给出多个候选 Prompt，让 Claude 分析优劣并打分

这三种模式可以组合成自动化优化循环（Automated Optimization Loop），实现无人监督的 Prompt 持续改进。

74.2 Prompt 生成提示（Prompt Generation Prompts）

74.2.1 基础 Prompt 生成框架

编写一个好的 Prompt 生成提示本身就是一门艺术。它需要告诉 Claude：

目标任务是什么
目标模型的能力与局限
输出格式要求
评估标准

from anthropic import Anthropic

client = Anthropic()

PROMPT_GENERATOR_SYSTEM = """你是一位专业的 Prompt 工程师，精通为 Claude 设计高效的系统提示词。

生成 Prompt 时，请遵循以下原则：
1. 角色定义要清晰：明确 Claude 扮演什么角色
2. 任务指令要具体：避免模糊表述，使用可操作的动词
3. 输出格式要规范：明确指定输出的结构和格式
4. 约束条件要完整：列出所有限制和边界条件
5. 示例要有代表性：如需示例，确保覆盖典型场景

请按以下格式输出：
<prompt>
[生成的完整提示词]
</prompt>

<rationale>
[设计决策说明：为什么选择这种结构和措辞]
</rationale>"""

def generate_prompt(task_description: str, context: str = "") -> dict:
    """
    根据任务描述自动生成 Prompt
    """
    user_message = f"""请为以下任务生成一个高质量的系统提示词：

任务描述：{task_description}

{f"额外上下文：{context}" if context else ""}

请确保生成的 Prompt 适合在 Claude 的 system 参数中使用。"""

    response = client.messages.create(
        model="claude-opus-4-5",
        max_tokens=2048,
        system=PROMPT_GENERATOR_SYSTEM,
        messages=[{"role": "user", "content": user_message}]
    )
    
    text = response.content[0].text
    
    # 解析结构化输出
    prompt_text = ""
    rationale = ""
    
    if "<prompt>" in text and "</prompt>" in text:
        prompt_text = text.split("<prompt>")[1].split("</prompt>")[0].strip()
    if "<rationale>" in text and "</rationale>" in text:
        rationale = text.split("<rationale>")[1].split("</rationale>")[0].strip()
    
    return {"prompt": prompt_text, "rationale": rationale}

74.2.2 专化的 Prompt 生成器

不同任务类型需要不同的 Prompt 生成策略。可以为每种任务类型设计专化的生成器：

TASK_TYPE_GENERATORS = {
    "classification": """你是 Prompt 专家。为分类任务生成 Prompt 时，请特别注意：
- 明确列出所有可能的分类类别
- 指定当输入不属于任何类别时的处理方式
- 要求输出格式为 JSON：{"category": "...", "confidence": 0.0-1.0}
- 包含边界情况处理规则""",
    
    "extraction": """你是 Prompt 专家。为信息抽取任务生成 Prompt 时，请特别注意：
- 精确定义每个待提取字段的名称和数据类型
- 说明字段缺失时的处理方式（null vs 省略）
- 指定 JSON Schema 格式的输出结构
- 处理一对多关系的提取规则""",
    
    "summarization": """你是 Prompt 专家。为摘要任务生成 Prompt 时，请特别注意：
- 指定目标摘要的长度范围（字数/句数）
- 明确保留重要信息的优先级标准
- 说明是否需要保留专有名词和数字
- 指定摘要的语气和受众"""
}

74.3.1 基于失败案例的优化

最有效的 Prompt 优化策略是收集失败案例，然后让 Claude 分析并修复：

def optimize_prompt_from_failures(
    current_prompt: str,
    failure_cases: list,
    optimization_goal: str
) -> dict:
    """
    基于失败案例优化现有 Prompt
    
    failure_cases: [
        {
            "input": "用户输入",
            "expected_output": "期望输出",
            "actual_output": "实际输出",
            "failure_reason": "失败原因分析"
        }
    ]
    """
    
    # 格式化失败案例
    failures_text = ""
    for i, case in enumerate(failure_cases, 1):
        failures_text += f"""
失败案例 {i}：
- 输入：{case['input']}
- 期望输出：{case['expected_output']}
- 实际输出：{case['actual_output']}
- 失败原因：{case.get('failure_reason', '未知')}
"""
    
    optimization_prompt = f"""你是一位 Prompt 优化专家。请分析以下 Prompt 的失败案例，并提供改进版本。

当前 Prompt：

{current_prompt}


优化目标：{optimization_goal}

失败案例：
{failures_text}

请：
1. 分析失败的根本原因（是指令不明确？是缺少约束？是格式问题？）
2. 提出具体的修改方案
3. 生成改进后的 Prompt

输出格式：
<analysis>
失败原因分析
</analysis>

<changes>
列出具体修改点及修改理由
</changes>

<improved_prompt>
改进后的完整 Prompt
</improved_prompt>"""
    
    response = client.messages.create(
        model="claude-opus-4-5",
        max_tokens=3000,
        messages=[{"role": "user", "content": optimization_prompt}]
    )
    
    text = response.content[0].text
    return parse_optimization_response(text)

74.3.2 渐进式优化循环

class PromptOptimizer:
    def __init__(self, initial_prompt: str, evaluation_fn, max_iterations: int = 5):
        """
        evaluation_fn: 接受 (prompt, test_cases) 返回分数 0-1
        """
        self.current_prompt = initial_prompt
        self.evaluate = evaluation_fn
        self.max_iterations = max_iterations
        self.history = []
    
    def run(self, test_cases: list, target_score: float = 0.9) -> dict:
        """
        运行自动优化循环
        """
        for iteration in range(self.max_iterations):
            # 评估当前 Prompt
            score = self.evaluate(self.current_prompt, test_cases)
            self.history.append({
                "iteration": iteration,
                "prompt": self.current_prompt,
                "score": score
            })
            
            print(f"迭代 {iteration + 1}: 当前得分 = {score:.3f}")
            
            if score >= target_score:
                print(f"达到目标分数 {target_score}，停止优化")
                break
            
            # 收集失败案例
            failures = self._collect_failures(test_cases)
            
            if not failures:
                print("无法识别具体失败原因，停止优化")
                break
            
            # 生成改进版本
            optimization_result = optimize_prompt_from_failures(
                current_prompt=self.current_prompt,
                failure_cases=failures,
                optimization_goal=f"目标得分 >= {target_score}"
            )
            
            if optimization_result.get("improved_prompt"):
                self.current_prompt = optimization_result["improved_prompt"]
            else:
                print("优化器未能生成改进版本，停止")
                break
        
        return {
            "final_prompt": self.current_prompt,
            "final_score": self.history[-1]["score"],
            "iterations": len(self.history),
            "history": self.history
        }
    
    def _collect_failures(self, test_cases: list) -> list:
        """收集当前 Prompt 的失败案例"""
        failures = []
        for case in test_cases:
            response = client.messages.create(
                model="claude-opus-4-5",
                max_tokens=512,
                system=self.current_prompt,
                messages=[{"role": "user", "content": case["input"]}]
            )
            actual = response.content[0].text
            
            if not case["check_fn"](actual, case["expected"]):
                failures.append({
                    "input": case["input"],
                    "expected_output": case["expected"],
                    "actual_output": actual
                })
        
        return failures

74.4 评估循环（Evaluation Loops）

74.4.1 构建 Prompt 评估标准

评估 Prompt 质量需要多维度的标准体系。不同任务的评估维度不同：

EVALUATION_RUBRIC = {
    "clarity": {
        "description": "指令清晰度：Claude 能否明确理解任务要求",
        "weight": 0.25,
        "criteria": [
            "使用了明确的动作动词",
            "避免了歧义表述",
            "提供了足够的上下文"
        ]
    },
    "completeness": {
        "description": "完整性：是否涵盖了所有必要的指令",
        "weight": 0.25,
        "criteria": [
            "定义了输出格式",
            "处理了边界情况",
            "包含了必要的约束条件"
        ]
    },
    "efficiency": {
        "description": "效率：Prompt 是否简洁，没有冗余",
        "weight": 0.20,
        "criteria": [
            "没有重复的指令",
            "没有不必要的说明",
            "Token 使用合理"
        ]
    },
    "robustness": {
        "description": "鲁棒性：对不同输入的适应能力",
        "weight": 0.30,
        "criteria": [
            "能处理输入格式变化",
            "对边界输入有明确指引",
            "避免了常见的模型误解模式"
        ]
    }
}

74.4.2 自动化 Prompt 评估

def evaluate_prompt_quality(prompt: str, task_description: str) -> dict:
    """
    使用 Claude 自动评估 Prompt 质量
    """
    evaluation_request = f"""请对以下 Prompt 进行专业质量评估。

任务描述（Prompt 应该实现的目标）：
{task_description}

待评估的 Prompt：

{prompt}


请从以下维度打分（1-10分）并给出具体的改进建议：

1. 清晰度（指令是否明确无歧义）
2. 完整性（是否涵盖所有必要指令）
3. 效率（是否简洁无冗余）
4. 鲁棒性（对各种输入的适应能力）

请以 JSON 格式输出：
{{
    "scores": {{
        "clarity": {{"score": 0, "reasoning": "...", "improvements": [...]}},
        "completeness": {{"score": 0, "reasoning": "...", "improvements": [...]}},
        "efficiency": {{"score": 0, "reasoning": "...", "improvements": [...]}},
        "robustness": {{"score": 0, "reasoning": "...", "improvements": [...]}}
    }},
    "overall_score": 0,
    "top_3_issues": [...],
    "top_3_strengths": [...]
}}"""
    
    response = client.messages.create(
        model="claude-opus-4-5",
        max_tokens=2000,
        messages=[{"role": "user", "content": evaluation_request}]
    )
    
    import json
    try:
        return json.loads(response.content[0].text)
    except json.JSONDecodeError:
        return {"raw_evaluation": response.content[0].text}

74.4.3 对比评估：哪个 Prompt 更好

当有多个候选 Prompt 时，可以使用对比评估而非绝对评分：

def compare_prompts(prompt_a: str, prompt_b: str, test_cases: list) -> dict:
    """
    对比两个 Prompt 的相对质量
    使用 A/B 测试 + LLM 评判
    """
    comparison_request = f"""你是 Prompt 质量评审员。请对比以下两个 Prompt，判断哪个更适合完成指定任务。

Prompt A：

{prompt_a}


Prompt B：

{prompt_b}


测试案例（用于判断哪个 Prompt 效果更好）：
{format_test_cases(test_cases)}

请分析：
1. 两个 Prompt 各自的优势
2. 两个 Prompt 各自的劣势
3. 对于给定测试案例，哪个 Prompt 更可能产生更好的结果
4. 如何结合两者的优点创建更好的版本

以 JSON 格式输出你的分析。"""
    
    response = client.messages.create(
        model="claude-opus-4-5",
        max_tokens=2000,
        messages=[{"role": "user", "content": comparison_request}]
    )
    
    return {"comparison": response.content[0].text}

74.5 高级元提示技术

74.5.1 自动 Prompt 压缩

随着 Prompt 迭代优化，它们往往会变得越来越长。自动压缩技术可以在保留语义的前提下减少 Token 数量：

def compress_prompt(prompt: str, target_reduction: float = 0.3) -> dict:
    """
    自动压缩 Prompt，目标减少 target_reduction 比例的 Token
    """
    original_length = len(prompt)
    target_length = int(original_length * (1 - target_reduction))
    
    compression_request = f"""请对以下 Prompt 进行精简压缩，在保留全部核心语义和功能的前提下，
将其长度减少约 {int(target_reduction * 100)}%（从约 {original_length} 字符压缩到约 {target_length} 字符）。

原始 Prompt：

{prompt}


压缩规则：
1. 删除冗余说明（同一点多次表述只保留一次）
2. 合并相似指令
3. 使用更简洁的表达方式
4. 保留所有关键约束和格式要求
5. 不得删除关键功能或引入歧义

请先解释你做了哪些删减，再给出压缩后的版本。

<changes>
说明删减内容及理由
</changes>

<compressed_prompt>
压缩后的 Prompt
</compressed_prompt>"""
    
    response = client.messages.create(
        model="claude-opus-4-5",
        max_tokens=2000,
        messages=[{"role": "user", "content": compression_request}]
    )
    
    text = response.content[0].text
    compressed = ""
    if "<compressed_prompt>" in text:
        compressed = text.split("<compressed_prompt>")[1].split("</compressed_prompt>")[0].strip()
    
    return {
        "original_length": original_length,
        "compressed_length": len(compressed),
        "reduction_ratio": 1 - len(compressed) / original_length if compressed else 0,
        "compressed_prompt": compressed
    }

74.5.2 多语言 Prompt 适配

def adapt_prompt_for_language(prompt: str, target_language: str, cultural_context: str = "") -> str:
    """
    将 Prompt 适配到目标语言和文化环境
    """
    adaptation_request = f"""请将以下 Prompt 适配到{target_language}环境。

这不仅仅是翻译，而是真正的本地化适配：
- 调整措辞使其符合{target_language}用户的表达习惯
- 根据文化差异调整示例和参考内容
- 保持指令的准确性和完整性
- 确保输出格式要求在目标语言中仍然合理

{f"文化背景补充：{cultural_context}" if cultural_context else ""}

原始 Prompt（英文）：

{prompt}


请直接输出适配后的{target_language}版本，不需要额外说明。"""
    
    response = client.messages.create(
        model="claude-opus-4-5",
        max_tokens=2000,
        messages=[{"role": "user", "content": adaptation_request}]
    )
    
    return response.content[0].text

74.5.3 Prompt 变体生成（用于 A/B 测试）

def generate_prompt_variants(base_prompt: str, n_variants: int = 3) -> list:
    """
    基于基础 Prompt 生成多个功能等价但表达不同的变体
    用于 A/B 测试以找到最优表达方式
    """
    variant_request = f"""基于以下基础 Prompt，生成 {n_variants} 个功能等价但措辞不同的变体版本。

变体应该：
- 保持相同的核心指令和约束
- 使用不同的措辞、结构或强调方式
- 涵盖不同的 Prompt 设计风格（列表式/段落式/角色扮演式等）

基础 Prompt：

{base_prompt}


请按以下格式输出每个变体：

<variant_1>
[变体1]
</variant_1>

<variant_2>
[变体2]
</variant_2>

<variant_3>
[变体3]
</variant_3>"""
    
    response = client.messages.create(
        model="claude-opus-4-5",
        max_tokens=3000,
        messages=[{"role": "user", "content": variant_request}]
    )
    
    text = response.content[0].text
    variants = []
    for i in range(1, n_variants + 1):
        tag = f"variant_{i}"
        if f"<{tag}>" in text:
            variant = text.split(f"<{tag}>")[1].split(f"</{tag}>")[0].strip()
            variants.append(variant)
    
    return variants

74.6 元提示的局限性与注意事项

74.6.1 自我参照偏见（Self-Reference Bias）

当让 Claude 评估 Claude 生成的 Prompt 时，存在显著的自我参照偏见：模型倾向于给自己生成的内容打高分。

缓解策略：

使用不同的模型实例进行生成和评估（如果条件允许）
在评估 Prompt 中明确要求"假设这是由一个存在缺陷的系统生成的，请挑剔地找出问题"
始终用真实测试数据的客观指标（而非 LLM 评分）作为最终衡量标准

74.6.2 局部最优陷阱

自动优化循环可能陷入局部最优：对失败案例的过拟合导致其他场景性能下降。

解决方案：

保持多样化的测试集（不只包含难例）
在每次优化后对完整测试集（包括之前通过的案例）重新评估
设置"回归测试"门控

74.6.3 边界条件

元提示在以下情况下效果较差：

任务需要非常专业的领域知识（需要人工专家介入）
任务的质量标准难以形式化（创意写作、审美判断）
Token 成本敏感场景（元提示本身消耗大量 Token）

小结

元提示将 Claude 从任务执行者转变为 Prompt 工程师，实现了 Prompt 设计的自动化闭环。从基础的 Prompt 生成，到基于失败案例的迭代优化，再到多维度的自动评估，元提示体系为大规模 Prompt 管理提供了工具链。

关键成功因素是：高质量的测试集（用于驱动优化循环）、合理的评估标准（将模糊目标转化为可量化指标）、以及对自我参照偏见的清醒认识（不能让 Claude 独立评判自己的输出）。在这些条件具备的前提下，元提示可以将 Prompt 开发周期从天缩短到小时。

本章评分

4.6 / 5 (3 评分)

Claude 特有 Prompt 技巧：XML 标签 / 文档前置 / 并行工具模板的实战手册

第七十四章：元提示（Meta-Prompting）：让 Claude 自动优化你的 Prompt

74.1 什么是元提示

74.2 Prompt 生成提示（Prompt Generation Prompts）

74.2.1 基础 Prompt 生成框架

74.2.2 专化的 Prompt 生成器

74.3 迭代优化（Iterative Refinement）

74.3.1 基于失败案例的优化

74.3.2 渐进式优化循环

74.4 评估循环（Evaluation Loops）

74.4.1 构建 Prompt 评估标准

74.4.2 自动化 Prompt 评估

74.4.3 对比评估：哪个 Prompt 更好

74.5 高级元提示技术

74.5.1 自动 Prompt 压缩

74.5.2 多语言 Prompt 适配

74.5.3 Prompt 变体生成（用于 A/B 测试）

74.6 元提示的局限性与注意事项

74.6.1 自我参照偏见（Self-Reference Bias）

74.6.2 局部最优陷阱

74.6.3 边界条件

小结

💬 留言讨论