第 1 章

Constitutional AI 与 Anthropic 安全理念:为什么 Claude 和其他 LLM 不一样

第一章:Claude 是谁:Anthropic 的使命、Constitutional AI 与模型家族

1.1 Anthropic:以安全为核心的 AI 公司

2021年,OpenAI 的前研究副总裁 Dario Amodei 与他的妹妹 Daniela Amodei,连同七位同事一起离开 OpenAI,创立了 Anthropic。这个决定并非一时冲动,而是源于一个深刻的信念:通用人工智能(AGI)的到来是大概率事件,而它是否对人类有益,取决于我们今天如何构建它

Anthropic 的使命声明只有一句话:"The responsible development and maintenance of advanced AI for the long-term benefit of humanity."(负责任地开发和维护先进 AI,为人类的长期利益服务。)这句话看起来普通,但在实践层面意味着截然不同的优先级排序:安全研究先于产品发布,可解释性研究先于能力扩展,"拒绝有害请求"先于"取悦所有用户"。

从 Google 和 Spark Capital 融资

2023 年 Google 以 3 亿美元领投 Anthropic,随后追加至数十亿美元规模的承诺投资。Amazon 在同年宣布最高 40 亿美元的投资计划。这些巨额资金不仅是商业信任,更是科技巨头对"AI 安全"这个赛道的战略押注。Anthropic 用这些资金建立了世界上规模最大的 AI 安全研究团队之一。

与 OpenAI 的理念分歧

外界常问:Anthropic 与 OpenAI 到底有什么本质不同?以下对比揭示了核心分歧:

                OpenAI                    Anthropic
使命            推进 AGI                   安全地开发 AGI
商业化路径      快速扩张用户和营收            安全研究优先
对齐方法        RLHF(人类反馈强化学习)      RLHF + Constitutional AI
开放程度        GPT-3 后逐步闭源             核心模型始终闭源,强调可解释性
治理结构        非营利+有上限营利             公益公司(PBC)

1.2 Constitutional AI:让模型自我批判

Constitutional AI(宪法 AI,简称 CAI)是 Anthropic 在 2022 年发表的核心技术论文所描述的训练方法,它是 Claude 与其他大型语言模型最根本的技术差异之一。

传统 RLHF 的局限

在传统的 RLHF(Reinforcement Learning from Human Feedback)流程中:

  1. 人类标注员对模型输出进行好坏评分
  2. 训练一个奖励模型来预测人类偏好
  3. 用 PPO 等强化学习算法优化语言模型

这个过程存在几个已知问题:

CAI 的核心思路

Constitutional AI 引入了一套显式原则集合(即"宪法"),让模型依照这些原则进行自我批评和自我修正。训练流程分两个阶段:

阶段一:监督学习阶段(SL-CAI)

1. 给模型一个可能有害的提示(Red Team Prompt)
2. 模型生成初始响应
3. 模型根据宪法原则评判自己的响应:
   "请根据以下原则修改你的响应,使其更无害..."
4. 模型生成修订后的响应
5. 用修订后的响应作为监督训练数据

阶段二:强化学习阶段(RL-CAI)

1. 模型为同一个提示生成多个候选响应
2. 模型(作为评判者)根据宪法原则对这些响应打分
3. 用 AI 生成的偏好数据训练奖励模型
4. 用奖励模型进行 RL 优化

这个过程的关键创新在于:偏好标注工作从人类转移到了模型本身,但评判依据是透明的、可审计的原则,而不是隐式的人类直觉。

Claude 的宪法原则示例

Anthropic 公开了 Claude 使用的部分宪法原则,包括(英文原文附中文意译):

CAI 带来的实际效果

在 Anthropic 的测试中,CAI 训练的模型相比纯 RLHF 模型:

这解释了为什么 Claude 在被拒绝时通常会解释原因,而不是直接说"我无法帮助你"。

1.3 模型家族全览

截至 2025 年,Anthropic 的 Claude 模型按能力和成本分为三个档次:Opus、Sonnet、Haiku。每个档次下有多个版本迭代。

命名规则

Claude 的模型名称遵循以下模式:

claude-{档次}-{主版本号}[-{日期戳}]

示例:
  claude-opus-4-6
  claude-sonnet-4-6
  claude-haiku-4-5-20251001

Opus:旗舰推理模型

claude-opus-4-6 是当前 Anthropic 发布的最强模型。适用场景:

能力特征

成本:输入 $15/百万 tokens,输出 $75/百万 tokens(截至 2025 年定价,以官方页面为准)

Sonnet:性价比最优解

claude-sonnet-4-6 是 Anthropic 自己最推荐用于生产的"主力"模型。它在能力与成本之间取得了最佳平衡点:

适用场景

成本:输入 $3/百万 tokens,输出 $15/百万 tokens

Haiku:速度与成本优先

claude-haiku-4-5-20251001 是专为高吞吐量、对延迟敏感的场景设计的小模型:

适用场景

成本:输入 $0.25/百万 tokens,输出 $1.25/百万 tokens

三档模型对比速查

特性对比表:
┌──────────────────────┬─────────────┬─────────────┬──────────────────────┐
│ 维度                 │   Opus      │   Sonnet    │       Haiku          │
├──────────────────────┼─────────────┼─────────────┼──────────────────────┤
│ 代表模型             │ claude-     │ claude-     │ claude-haiku-        │
│                      │ opus-4-6    │ sonnet-4-6  │ 4-5-20251001         │
├──────────────────────┼─────────────┼─────────────┼──────────────────────┤
│ 上下文窗口           │ 200K        │ 200K        │ 200K                 │
├──────────────────────┼─────────────┼─────────────┼──────────────────────┤
│ 输入价格($/M tokens) │ $15         │ $3          │ $0.25                │
├──────────────────────┼─────────────┼─────────────┼──────────────────────┤
│ 输出价格($/M tokens) │ $75         │ $15         │ $1.25                │
├──────────────────────┼─────────────┼─────────────┼──────────────────────┤
│ 速度                 │ 慢          │ 中          │ 快                   │
├──────────────────────┼─────────────┼─────────────┼──────────────────────┤
│ 扩展思考             │ 支持        │ 支持        │ 不支持               │
├──────────────────────┼─────────────┼─────────────┼──────────────────────┤
│ 视觉输入             │ 支持        │ 支持        │ 支持                 │
└──────────────────────┴─────────────┴─────────────┴──────────────────────┘

1.4 Claude 的"性格":帮助、无害、诚实

Anthropic 在 Claude 的训练目标中设定了三个核心价值维度,简称 HHH

这三个原则之间存在张力。当一个问题同时触及帮助性和无害性时,Claude 需要权衡。Anthropic 公开表示,Claude 的设计倾向是:在不确定时,宁可保守,但不应该过度保守到无法提供任何有用信息

"有主见"的 AI

Claude 被设计为能够表达不同意见,而不是无条件迎合用户。如果用户的代码有 bug,Claude 不会假装没看见;如果用户的观点在事实层面是错误的,Claude 会(礼貌地)指出来。这是有意为之的设计决策,源于 Anthropic 认为"顺从的 AI 是危险的 AI"这一判断。

对话中的透明度

Claude 被要求对自己的不确定性保持透明。当它不知道答案时,它会说"我不确定"而不是编造一个听起来合理的答案。当它的训练数据有时间截止时,它会提示用户验证最新信息。这种设计在某些场景下可能令用户感到不便,但它是诚实原则的直接体现。

1.5 Anthropic 的安全研究:可解释性的前沿

Anthropic 是目前世界上对模型可解释性(Interpretability)投入最多的 AI 公司之一。其核心研究方向被称为机械可解释性(Mechanistic Interpretability)

什么是机械可解释性

传统的"可解释 AI"通常是事后解释(post-hoc explanation):先让模型做出决策,再尝试解释这个决策。机械可解释性则是试图直接理解神经网络内部计算发生了什么——哪些神经元在处理哪类信息,哪些"特征"(feature)在多层网络中被传递和变换。

Anthropic 的研究团队在 2023-2024 年发表了一系列关于"superposition"(叠加表示)和"features as linear directions"(特征作为线性方向)的论文,揭示了大型语言模型中信息表示的一些基本原理。

为什么这对 Claude 用户有意义

可解释性研究直接影响了 Claude 的安全设计:

  1. "宪法"的有效性可验证:CAI 训练后,研究人员可以通过激活分析确认某些有害概念确实被"压制"了
  2. Jailbreak 防御:理解了内部表示,就能更好地预测和阻断绕过安全机制的攻击向量
  3. 用户可信度:Anthropic 公开其安全研究,允许外部研究人员复现和批评,这是建立信任的重要手段

1.6 Claude 在哪里运行

Claude 以多种形式提供给用户和开发者:

Claude.ai:面向最终用户的产品

claude.ai 是 Anthropic 的官方聊天界面,类似于 ChatGPT.com 之于 OpenAI。它提供:

Claude API:面向开发者

这是本书的主要关注点。通过 api.anthropic.com,开发者可以:

Amazon Bedrock 和 Google Cloud Vertex AI

Claude 也通过云服务商的托管 AI 服务提供:


小结

本章从 Anthropic 的创立初衷讲起,拆解了 Constitutional AI 的技术机制,梳理了 Claude 模型家族的三档定位,并概述了 HHH 价值框架和安全研究方向。

理解这些背景对于使用 Claude API 有实际意义:

下一章,我们将深入比较三个档次的具体能力差异,并给出模型选择的决策框架。

本章评分
4.7  / 5  (160 评分)

💬 留言讨论