第 1 章

Constitutional AI 与 Anthropic 安全理念：为什么 Claude 和其他 LLM 不一样

第一章：Claude 是谁：Anthropic 的使命、Constitutional AI 与模型家族

1.1 Anthropic：以安全为核心的 AI 公司

2021年，OpenAI 的前研究副总裁 Dario Amodei 与他的妹妹 Daniela Amodei，连同七位同事一起离开 OpenAI，创立了 Anthropic。这个决定并非一时冲动，而是源于一个深刻的信念：通用人工智能（AGI）的到来是大概率事件，而它是否对人类有益，取决于我们今天如何构建它。

Anthropic 的使命声明只有一句话："The responsible development and maintenance of advanced AI for the long-term benefit of humanity."（负责任地开发和维护先进 AI，为人类的长期利益服务。）这句话看起来普通，但在实践层面意味着截然不同的优先级排序：安全研究先于产品发布，可解释性研究先于能力扩展，"拒绝有害请求"先于"取悦所有用户"。

从 Google 和 Spark Capital 融资

2023 年 Google 以 3 亿美元领投 Anthropic，随后追加至数十亿美元规模的承诺投资。Amazon 在同年宣布最高 40 亿美元的投资计划。这些巨额资金不仅是商业信任，更是科技巨头对"AI 安全"这个赛道的战略押注。Anthropic 用这些资金建立了世界上规模最大的 AI 安全研究团队之一。

与 OpenAI 的理念分歧

外界常问：Anthropic 与 OpenAI 到底有什么本质不同？以下对比揭示了核心分歧：

                OpenAI                    Anthropic
使命            推进 AGI                   安全地开发 AGI
商业化路径      快速扩张用户和营收            安全研究优先
对齐方法        RLHF（人类反馈强化学习）      RLHF + Constitutional AI
开放程度        GPT-3 后逐步闭源             核心模型始终闭源，强调可解释性
治理结构        非营利+有上限营利             公益公司（PBC）

1.2 Constitutional AI：让模型自我批判

Constitutional AI（宪法 AI，简称 CAI）是 Anthropic 在 2022 年发表的核心技术论文所描述的训练方法，它是 Claude 与其他大型语言模型最根本的技术差异之一。

传统 RLHF 的局限

在传统的 RLHF（Reinforcement Learning from Human Feedback）流程中：

人类标注员对模型输出进行好坏评分
训练一个奖励模型来预测人类偏好
用 PPO 等强化学习算法优化语言模型

这个过程存在几个已知问题：

标注员偏见：不同标注员的价值判断不一致，尤其在政治、伦理类话题上
规模瓶颈：人类标注是线性成本，模型越大，需要的标注量越多
隐式价值观：模型学到的是"人类觉得好的"，而不是"有明确理由的好"

CAI 的核心思路

Constitutional AI 引入了一套显式原则集合（即"宪法"），让模型依照这些原则进行自我批评和自我修正。训练流程分两个阶段：

阶段一：监督学习阶段（SL-CAI）

1. 给模型一个可能有害的提示（Red Team Prompt）
2. 模型生成初始响应
3. 模型根据宪法原则评判自己的响应：
   "请根据以下原则修改你的响应，使其更无害..."
4. 模型生成修订后的响应
5. 用修订后的响应作为监督训练数据

阶段二：强化学习阶段（RL-CAI）

1. 模型为同一个提示生成多个候选响应
2. 模型（作为评判者）根据宪法原则对这些响应打分
3. 用 AI 生成的偏好数据训练奖励模型
4. 用奖励模型进行 RL 优化

这个过程的关键创新在于：偏好标注工作从人类转移到了模型本身，但评判依据是透明的、可审计的原则，而不是隐式的人类直觉。

Claude 的宪法原则示例

Anthropic 公开了 Claude 使用的部分宪法原则，包括（英文原文附中文意译）：

"Choose the response that is least likely to contain harmful or unethical content."（选择最不可能包含有害或不道德内容的响应。）
"Choose the response that is most helpful, accurate, and harmless."（选择最有帮助、最准确、最无害的响应。）
"Choose the response that a thoughtful, senior Anthropic employee would consider optimal."（选择一位深思熟虑的资深 Anthropic 员工会认为最优的响应。）
"Choose the response that is least likely to be seen as condescending to the user's abilities."（选择最不可能被视为对用户能力居高临下的响应。）

CAI 带来的实际效果

在 Anthropic 的测试中，CAI 训练的模型相比纯 RLHF 模型：

在无害性评分上提高了约 16%
在帮助性评分上仅略微下降（约 2%）
在处理敏感话题时更能给出有理由的拒绝，而非简单截断

这解释了为什么 Claude 在被拒绝时通常会解释原因，而不是直接说"我无法帮助你"。

1.3 模型家族全览

截至 2025 年，Anthropic 的 Claude 模型按能力和成本分为三个档次：Opus、Sonnet、Haiku。每个档次下有多个版本迭代。

命名规则

Claude 的模型名称遵循以下模式：

claude-{档次}-{主版本号}[-{日期戳}]

示例：
  claude-opus-4-6
  claude-sonnet-4-6
  claude-haiku-4-5-20251001

档次：opus（最强）> sonnet（均衡）> haiku（最快最便宜）
主版本号：代表架构代数（3、3.5、4 等），数字越大越新
日期戳：可选，格式为 YYYYMMDD，用于固定特定快照版本

Opus：旗舰推理模型

claude-opus-4-6 是当前 Anthropic 发布的最强模型。适用场景：

复杂多步推理（数学证明、代码架构设计）
长文档综合分析（法律合同、科研论文）
需要最高准确性的生产任务
高质量内容创作

能力特征：

上下文窗口：200K tokens
支持扩展思考（Extended Thinking）模式
在 MMLU、HumanEval、MATH 等基准测试上名列前茅
视觉理解（图像、PDF、图表）

成本：输入 $15/百万 tokens，输出 $75/百万 tokens（截至 2025 年定价，以官方页面为准）

Sonnet：性价比最优解

claude-sonnet-4-6 是 Anthropic 自己最推荐用于生产的"主力"模型。它在能力与成本之间取得了最佳平衡点：

比 Opus 快 2-3 倍
成本约为 Opus 的 1/5
在大多数实际任务中，效果与 Opus 相差不大

适用场景：

企业 API 集成的默认选择
需要低延迟的交互式应用
中等复杂度的代码生成
日常问答、摘要、翻译

成本：输入 $3/百万 tokens，输出 $15/百万 tokens

Haiku：速度与成本优先

claude-haiku-4-5-20251001 是专为高吞吐量、对延迟敏感的场景设计的小模型：

响应速度最快，通常在 1 秒内完成简单任务
成本约为 Sonnet 的 1/4
在简单分类、提取、路由类任务上效果接近更大模型

适用场景：

内容审核和分类管道
实时聊天机器人（需要极低延迟）
大规模批处理任务
作为多模型系统中的"路由器"或"前置过滤器"

成本：输入 $0.25/百万 tokens，输出 $1.25/百万 tokens

三档模型对比速查

特性对比表：
┌──────────────────────┬─────────────┬─────────────┬──────────────────────┐
│ 维度                 │   Opus      │   Sonnet    │       Haiku          │
├──────────────────────┼─────────────┼─────────────┼──────────────────────┤
│ 代表模型             │ claude-     │ claude-     │ claude-haiku-        │
│                      │ opus-4-6    │ sonnet-4-6  │ 4-5-20251001         │
├──────────────────────┼─────────────┼─────────────┼──────────────────────┤
│ 上下文窗口           │ 200K        │ 200K        │ 200K                 │
├──────────────────────┼─────────────┼─────────────┼──────────────────────┤
│ 输入价格($/M tokens) │ $15         │ $3          │ $0.25                │
├──────────────────────┼─────────────┼─────────────┼──────────────────────┤
│ 输出价格($/M tokens) │ $75         │ $15         │ $1.25                │
├──────────────────────┼─────────────┼─────────────┼──────────────────────┤
│ 速度                 │ 慢          │ 中          │ 快                   │
├──────────────────────┼─────────────┼─────────────┼──────────────────────┤
│ 扩展思考             │ 支持        │ 支持        │ 不支持               │
├──────────────────────┼─────────────┼─────────────┼──────────────────────┤
│ 视觉输入             │ 支持        │ 支持        │ 支持                 │
└──────────────────────┴─────────────┴─────────────┴──────────────────────┘

1.4 Claude 的"性格"：帮助、无害、诚实

Anthropic 在 Claude 的训练目标中设定了三个核心价值维度，简称 HHH：

Helpful（有帮助）：Claude 应当真正满足用户的需求，而不是表面敷衍。过于谨慎和过于激进同样是问题。
Harmless（无害）：Claude 不应协助用于伤害他人的行为，包括直接伤害和间接促成的伤害。
Honest（诚实）：Claude 不应该撒谎、不应该故意误导，也不应该为了取悦用户而说它认为不真实的话。

这三个原则之间存在张力。当一个问题同时触及帮助性和无害性时，Claude 需要权衡。Anthropic 公开表示，Claude 的设计倾向是：在不确定时，宁可保守，但不应该过度保守到无法提供任何有用信息。

"有主见"的 AI

Claude 被设计为能够表达不同意见，而不是无条件迎合用户。如果用户的代码有 bug，Claude 不会假装没看见；如果用户的观点在事实层面是错误的，Claude 会（礼貌地）指出来。这是有意为之的设计决策，源于 Anthropic 认为"顺从的 AI 是危险的 AI"这一判断。

对话中的透明度

Claude 被要求对自己的不确定性保持透明。当它不知道答案时，它会说"我不确定"而不是编造一个听起来合理的答案。当它的训练数据有时间截止时，它会提示用户验证最新信息。这种设计在某些场景下可能令用户感到不便，但它是诚实原则的直接体现。

1.5 Anthropic 的安全研究：可解释性的前沿

Anthropic 是目前世界上对模型可解释性（Interpretability）投入最多的 AI 公司之一。其核心研究方向被称为机械可解释性（Mechanistic Interpretability）。

什么是机械可解释性

传统的"可解释 AI"通常是事后解释（post-hoc explanation）：先让模型做出决策，再尝试解释这个决策。机械可解释性则是试图直接理解神经网络内部计算发生了什么——哪些神经元在处理哪类信息，哪些"特征"（feature）在多层网络中被传递和变换。

Anthropic 的研究团队在 2023-2024 年发表了一系列关于"superposition"（叠加表示）和"features as linear directions"（特征作为线性方向）的论文，揭示了大型语言模型中信息表示的一些基本原理。

为什么这对 Claude 用户有意义

可解释性研究直接影响了 Claude 的安全设计：

"宪法"的有效性可验证：CAI 训练后，研究人员可以通过激活分析确认某些有害概念确实被"压制"了
Jailbreak 防御：理解了内部表示，就能更好地预测和阻断绕过安全机制的攻击向量
用户可信度：Anthropic 公开其安全研究，允许外部研究人员复现和批评，这是建立信任的重要手段

1.6 Claude 在哪里运行

Claude 以多种形式提供给用户和开发者：

Claude.ai：面向最终用户的产品

claude.ai 是 Anthropic 的官方聊天界面，类似于 ChatGPT.com 之于 OpenAI。它提供：

免费层：有限的每日消息次数，使用 claude-sonnet-4-6 等模型
Pro 订阅（$20/月）：更高使用量，优先访问最新模型
Team/Enterprise 计划：多席位、更高安全标准、自定义系统提示

Claude API：面向开发者

这是本书的主要关注点。通过 api.anthropic.com，开发者可以：

以 token 为单位付费调用所有 Claude 模型
自定义 system prompt 和对话上下文
访问 tool use（工具调用）、vision（视觉）、extended thinking 等高级功能
通过 Batch API 进行大批量异步推理

Amazon Bedrock 和 Google Cloud Vertex AI

Claude 也通过云服务商的托管 AI 服务提供：

Amazon Bedrock：适合已在 AWS 生态内的企业，走统一 IAM 鉴权
Google Cloud Vertex AI：适合已在 GCP 生态内的企业
这两个渠道的模型版本与 Anthropic 直接 API 略有差异，功能可能存在延迟

小结

本章从 Anthropic 的创立初衷讲起，拆解了 Constitutional AI 的技术机制，梳理了 Claude 模型家族的三档定位，并概述了 HHH 价值框架和安全研究方向。

理解这些背景对于使用 Claude API 有实际意义：

知道 CAI 机制，就能理解为什么某些请求会被拒绝，以及如何通过合法的重新表述让 Claude 提供帮助
知道三档模型的能力边界，就能在成本和效果之间做出合理权衡
知道 Claude 被设计为"有主见"，就能预期它在某些场合下会主动提出异议

下一章，我们将深入比较三个档次的具体能力差异，并给出模型选择的决策框架。

本章评分

4.7 / 5 (160 评分)