Constitutional AI 与 Anthropic 安全理念:为什么 Claude 和其他 LLM 不一样
第一章:Claude 是谁:Anthropic 的使命、Constitutional AI 与模型家族
1.1 Anthropic:以安全为核心的 AI 公司
2021年,OpenAI 的前研究副总裁 Dario Amodei 与他的妹妹 Daniela Amodei,连同七位同事一起离开 OpenAI,创立了 Anthropic。这个决定并非一时冲动,而是源于一个深刻的信念:通用人工智能(AGI)的到来是大概率事件,而它是否对人类有益,取决于我们今天如何构建它。
Anthropic 的使命声明只有一句话:"The responsible development and maintenance of advanced AI for the long-term benefit of humanity."(负责任地开发和维护先进 AI,为人类的长期利益服务。)这句话看起来普通,但在实践层面意味着截然不同的优先级排序:安全研究先于产品发布,可解释性研究先于能力扩展,"拒绝有害请求"先于"取悦所有用户"。
从 Google 和 Spark Capital 融资
2023 年 Google 以 3 亿美元领投 Anthropic,随后追加至数十亿美元规模的承诺投资。Amazon 在同年宣布最高 40 亿美元的投资计划。这些巨额资金不仅是商业信任,更是科技巨头对"AI 安全"这个赛道的战略押注。Anthropic 用这些资金建立了世界上规模最大的 AI 安全研究团队之一。
与 OpenAI 的理念分歧
外界常问:Anthropic 与 OpenAI 到底有什么本质不同?以下对比揭示了核心分歧:
OpenAI Anthropic
使命 推进 AGI 安全地开发 AGI
商业化路径 快速扩张用户和营收 安全研究优先
对齐方法 RLHF(人类反馈强化学习) RLHF + Constitutional AI
开放程度 GPT-3 后逐步闭源 核心模型始终闭源,强调可解释性
治理结构 非营利+有上限营利 公益公司(PBC)
1.2 Constitutional AI:让模型自我批判
Constitutional AI(宪法 AI,简称 CAI)是 Anthropic 在 2022 年发表的核心技术论文所描述的训练方法,它是 Claude 与其他大型语言模型最根本的技术差异之一。
传统 RLHF 的局限
在传统的 RLHF(Reinforcement Learning from Human Feedback)流程中:
- 人类标注员对模型输出进行好坏评分
- 训练一个奖励模型来预测人类偏好
- 用 PPO 等强化学习算法优化语言模型
这个过程存在几个已知问题:
- 标注员偏见:不同标注员的价值判断不一致,尤其在政治、伦理类话题上
- 规模瓶颈:人类标注是线性成本,模型越大,需要的标注量越多
- 隐式价值观:模型学到的是"人类觉得好的",而不是"有明确理由的好"
CAI 的核心思路
Constitutional AI 引入了一套显式原则集合(即"宪法"),让模型依照这些原则进行自我批评和自我修正。训练流程分两个阶段:
阶段一:监督学习阶段(SL-CAI)
1. 给模型一个可能有害的提示(Red Team Prompt)
2. 模型生成初始响应
3. 模型根据宪法原则评判自己的响应:
"请根据以下原则修改你的响应,使其更无害..."
4. 模型生成修订后的响应
5. 用修订后的响应作为监督训练数据
阶段二:强化学习阶段(RL-CAI)
1. 模型为同一个提示生成多个候选响应
2. 模型(作为评判者)根据宪法原则对这些响应打分
3. 用 AI 生成的偏好数据训练奖励模型
4. 用奖励模型进行 RL 优化
这个过程的关键创新在于:偏好标注工作从人类转移到了模型本身,但评判依据是透明的、可审计的原则,而不是隐式的人类直觉。
Claude 的宪法原则示例
Anthropic 公开了 Claude 使用的部分宪法原则,包括(英文原文附中文意译):
- "Choose the response that is least likely to contain harmful or unethical content."(选择最不可能包含有害或不道德内容的响应。)
- "Choose the response that is most helpful, accurate, and harmless."(选择最有帮助、最准确、最无害的响应。)
- "Choose the response that a thoughtful, senior Anthropic employee would consider optimal."(选择一位深思熟虑的资深 Anthropic 员工会认为最优的响应。)
- "Choose the response that is least likely to be seen as condescending to the user's abilities."(选择最不可能被视为对用户能力居高临下的响应。)
CAI 带来的实际效果
在 Anthropic 的测试中,CAI 训练的模型相比纯 RLHF 模型:
- 在无害性评分上提高了约 16%
- 在帮助性评分上仅略微下降(约 2%)
- 在处理敏感话题时更能给出有理由的拒绝,而非简单截断
这解释了为什么 Claude 在被拒绝时通常会解释原因,而不是直接说"我无法帮助你"。
1.3 模型家族全览
截至 2025 年,Anthropic 的 Claude 模型按能力和成本分为三个档次:Opus、Sonnet、Haiku。每个档次下有多个版本迭代。
命名规则
Claude 的模型名称遵循以下模式:
claude-{档次}-{主版本号}[-{日期戳}]
示例:
claude-opus-4-6
claude-sonnet-4-6
claude-haiku-4-5-20251001
- 档次:opus(最强)> sonnet(均衡)> haiku(最快最便宜)
- 主版本号:代表架构代数(3、3.5、4 等),数字越大越新
- 日期戳:可选,格式为 YYYYMMDD,用于固定特定快照版本
Opus:旗舰推理模型
claude-opus-4-6 是当前 Anthropic 发布的最强模型。适用场景:
- 复杂多步推理(数学证明、代码架构设计)
- 长文档综合分析(法律合同、科研论文)
- 需要最高准确性的生产任务
- 高质量内容创作
能力特征:
- 上下文窗口:200K tokens
- 支持扩展思考(Extended Thinking)模式
- 在 MMLU、HumanEval、MATH 等基准测试上名列前茅
- 视觉理解(图像、PDF、图表)
成本:输入 $15/百万 tokens,输出 $75/百万 tokens(截至 2025 年定价,以官方页面为准)
Sonnet:性价比最优解
claude-sonnet-4-6 是 Anthropic 自己最推荐用于生产的"主力"模型。它在能力与成本之间取得了最佳平衡点:
- 比 Opus 快 2-3 倍
- 成本约为 Opus 的 1/5
- 在大多数实际任务中,效果与 Opus 相差不大
适用场景:
- 企业 API 集成的默认选择
- 需要低延迟的交互式应用
- 中等复杂度的代码生成
- 日常问答、摘要、翻译
成本:输入 $3/百万 tokens,输出 $15/百万 tokens
Haiku:速度与成本优先
claude-haiku-4-5-20251001 是专为高吞吐量、对延迟敏感的场景设计的小模型:
- 响应速度最快,通常在 1 秒内完成简单任务
- 成本约为 Sonnet 的 1/4
- 在简单分类、提取、路由类任务上效果接近更大模型
适用场景:
- 内容审核和分类管道
- 实时聊天机器人(需要极低延迟)
- 大规模批处理任务
- 作为多模型系统中的"路由器"或"前置过滤器"
成本:输入 $0.25/百万 tokens,输出 $1.25/百万 tokens
三档模型对比速查
特性对比表:
┌──────────────────────┬─────────────┬─────────────┬──────────────────────┐
│ 维度 │ Opus │ Sonnet │ Haiku │
├──────────────────────┼─────────────┼─────────────┼──────────────────────┤
│ 代表模型 │ claude- │ claude- │ claude-haiku- │
│ │ opus-4-6 │ sonnet-4-6 │ 4-5-20251001 │
├──────────────────────┼─────────────┼─────────────┼──────────────────────┤
│ 上下文窗口 │ 200K │ 200K │ 200K │
├──────────────────────┼─────────────┼─────────────┼──────────────────────┤
│ 输入价格($/M tokens) │ $15 │ $3 │ $0.25 │
├──────────────────────┼─────────────┼─────────────┼──────────────────────┤
│ 输出价格($/M tokens) │ $75 │ $15 │ $1.25 │
├──────────────────────┼─────────────┼─────────────┼──────────────────────┤
│ 速度 │ 慢 │ 中 │ 快 │
├──────────────────────┼─────────────┼─────────────┼──────────────────────┤
│ 扩展思考 │ 支持 │ 支持 │ 不支持 │
├──────────────────────┼─────────────┼─────────────┼──────────────────────┤
│ 视觉输入 │ 支持 │ 支持 │ 支持 │
└──────────────────────┴─────────────┴─────────────┴──────────────────────┘
1.4 Claude 的"性格":帮助、无害、诚实
Anthropic 在 Claude 的训练目标中设定了三个核心价值维度,简称 HHH:
- Helpful(有帮助):Claude 应当真正满足用户的需求,而不是表面敷衍。过于谨慎和过于激进同样是问题。
- Harmless(无害):Claude 不应协助用于伤害他人的行为,包括直接伤害和间接促成的伤害。
- Honest(诚实):Claude 不应该撒谎、不应该故意误导,也不应该为了取悦用户而说它认为不真实的话。
这三个原则之间存在张力。当一个问题同时触及帮助性和无害性时,Claude 需要权衡。Anthropic 公开表示,Claude 的设计倾向是:在不确定时,宁可保守,但不应该过度保守到无法提供任何有用信息。
"有主见"的 AI
Claude 被设计为能够表达不同意见,而不是无条件迎合用户。如果用户的代码有 bug,Claude 不会假装没看见;如果用户的观点在事实层面是错误的,Claude 会(礼貌地)指出来。这是有意为之的设计决策,源于 Anthropic 认为"顺从的 AI 是危险的 AI"这一判断。
对话中的透明度
Claude 被要求对自己的不确定性保持透明。当它不知道答案时,它会说"我不确定"而不是编造一个听起来合理的答案。当它的训练数据有时间截止时,它会提示用户验证最新信息。这种设计在某些场景下可能令用户感到不便,但它是诚实原则的直接体现。
1.5 Anthropic 的安全研究:可解释性的前沿
Anthropic 是目前世界上对模型可解释性(Interpretability)投入最多的 AI 公司之一。其核心研究方向被称为机械可解释性(Mechanistic Interpretability)。
什么是机械可解释性
传统的"可解释 AI"通常是事后解释(post-hoc explanation):先让模型做出决策,再尝试解释这个决策。机械可解释性则是试图直接理解神经网络内部计算发生了什么——哪些神经元在处理哪类信息,哪些"特征"(feature)在多层网络中被传递和变换。
Anthropic 的研究团队在 2023-2024 年发表了一系列关于"superposition"(叠加表示)和"features as linear directions"(特征作为线性方向)的论文,揭示了大型语言模型中信息表示的一些基本原理。
为什么这对 Claude 用户有意义
可解释性研究直接影响了 Claude 的安全设计:
- "宪法"的有效性可验证:CAI 训练后,研究人员可以通过激活分析确认某些有害概念确实被"压制"了
- Jailbreak 防御:理解了内部表示,就能更好地预测和阻断绕过安全机制的攻击向量
- 用户可信度:Anthropic 公开其安全研究,允许外部研究人员复现和批评,这是建立信任的重要手段
1.6 Claude 在哪里运行
Claude 以多种形式提供给用户和开发者:
Claude.ai:面向最终用户的产品
claude.ai 是 Anthropic 的官方聊天界面,类似于 ChatGPT.com 之于 OpenAI。它提供:
- 免费层:有限的每日消息次数,使用 claude-sonnet-4-6 等模型
- Pro 订阅($20/月):更高使用量,优先访问最新模型
- Team/Enterprise 计划:多席位、更高安全标准、自定义系统提示
Claude API:面向开发者
这是本书的主要关注点。通过 api.anthropic.com,开发者可以:
- 以 token 为单位付费调用所有 Claude 模型
- 自定义 system prompt 和对话上下文
- 访问 tool use(工具调用)、vision(视觉)、extended thinking 等高级功能
- 通过 Batch API 进行大批量异步推理
Amazon Bedrock 和 Google Cloud Vertex AI
Claude 也通过云服务商的托管 AI 服务提供:
- Amazon Bedrock:适合已在 AWS 生态内的企业,走统一 IAM 鉴权
- Google Cloud Vertex AI:适合已在 GCP 生态内的企业
- 这两个渠道的模型版本与 Anthropic 直接 API 略有差异,功能可能存在延迟
小结
本章从 Anthropic 的创立初衷讲起,拆解了 Constitutional AI 的技术机制,梳理了 Claude 模型家族的三档定位,并概述了 HHH 价值框架和安全研究方向。
理解这些背景对于使用 Claude API 有实际意义:
- 知道 CAI 机制,就能理解为什么某些请求会被拒绝,以及如何通过合法的重新表述让 Claude 提供帮助
- 知道三档模型的能力边界,就能在成本和效果之间做出合理权衡
- 知道 Claude 被设计为"有主见",就能预期它在某些场合下会主动提出异议
下一章,我们将深入比较三个档次的具体能力差异,并给出模型选择的决策框架。