第 71 章

生产最佳实践：多 Key 轮换 / 指数退避 / 熔断设计与可靠性架构

第七十一章：生产环境错误处理：重试策略、降级方案与 SLA 保障

71.1 Claude API 的错误类型分类

在生产环境中集成 Claude API，可靠的错误处理是服务稳定性的基础。Claude API 的错误可以大致分为两类：可重试错误和不可重试错误。错误分类是制定重试策略的前提。

HTTP 状态码全景

# Claude API 错误码分类（来源：Anthropic 官方文档）

ERROR_CATEGORIES = {
    # 4xx 客户端错误（大多数不可重试）
    400: {
        "name": "Bad Request",
        "retryable": False,
        "description": "请求格式错误、参数无效",
        "action": "检查请求参数，修复后重新发送"
    },
    401: {
        "name": "Unauthorized",
        "retryable": False,
        "description": "API Key 无效或缺失",
        "action": "检查 API Key 配置"
    },
    403: {
        "name": "Forbidden",
        "retryable": False,
        "description": "无权限访问此资源",
        "action": "检查账户权限和使用策略"
    },
    404: {
        "name": "Not Found",
        "retryable": False,
        "description": "请求的资源不存在",
        "action": "检查端点 URL 和资源 ID"
    },
    413: {
        "name": "Request Too Large",
        "retryable": False,
        "description": "请求体超过大小限制",
        "action": "减少输入内容或分批处理"
    },
    422: {
        "name": "Unprocessable Entity",
        "retryable": False,
        "description": "参数格式正确但值无效",
        "action": "检查具体的错误信息，修正参数值"
    },
    429: {
        "name": "Too Many Requests",
        "retryable": True,   # 速率限制，需要退避后重试
        "description": "超过速率限制（TPM 或 RPM）",
        "action": "指数退避后重试，检查 retry-after 头"
    },
    
    # 5xx 服务端错误（通常可重试）
    500: {
        "name": "Internal Server Error",
        "retryable": True,
        "description": "Anthropic 服务内部错误",
        "action": "短暂等待后重试，若持续发生联系支持"
    },
    503: {
        "name": "Service Unavailable",
        "retryable": True,
        "description": "服务临时不可用（维护或过载）",
        "action": "较长等待后重试"
    },
    529: {
        "name": "Overloaded",
        "retryable": True,
        "description": "API 处于高负载状态（Anthropic 自定义错误码）",
        "action": "指数退避后重试"
    }
}

连接层错误

除了 HTTP 状态码错误，还需要处理连接层错误：

CONNECTION_ERRORS = {
    "ConnectionTimeout": {
        "retryable": True,
        "description": "建立连接超时",
        "action": "重试，可能是临时网络问题"
    },
    "ReadTimeout": {
        "retryable": True,  # 谨慎：请求可能已经被处理
        "description": "等待响应超时",
        "action": "重试，但需要检查幂等性"
    },
    "ConnectionReset": {
        "retryable": True,
        "description": "连接被重置",
        "action": "立即重试"
    }
}

71.2 指数退避重试策略

基础退避算法

指数退避（Exponential Backoff）是处理速率限制和暂时性错误的标准方法：

import anthropic
import time
import random
import logging
from typing import Optional, Callable, TypeVar, Any

T = TypeVar('T')
logger = logging.getLogger(__name__)


class RetryConfig:
    """重试配置"""
    def __init__(
        self,
        max_retries: int = 3,
        base_delay: float = 1.0,       # 初始等待时间（秒）
        max_delay: float = 60.0,       # 最大等待时间（秒）
        exponential_base: float = 2.0,  # 指数底数
        jitter: bool = True,            # 是否添加随机抖动
        retryable_status_codes: set = None
    ):
        self.max_retries = max_retries
        self.base_delay = base_delay
        self.max_delay = max_delay
        self.exponential_base = exponential_base
        self.jitter = jitter
        self.retryable_status_codes = retryable_status_codes or {429, 500, 503, 529}
    
    def calculate_delay(self, attempt: int) -> float:
        """计算第 n 次重试的等待时间"""
        delay = min(
            self.base_delay * (self.exponential_base ** attempt),
            self.max_delay
        )
        
        if self.jitter:
            # 添加 ±25% 的随机抖动，避免惊群效应
            jitter_range = delay * 0.25
            delay += random.uniform(-jitter_range, jitter_range)
        
        return max(0, delay)


class ClaudeClientWithRetry:
    """带重试逻辑的 Claude 客户端封装"""
    
    def __init__(
        self,
        api_key: str,
        retry_config: RetryConfig = None
    ):
        self.client = anthropic.Anthropic(api_key=api_key)
        self.config = retry_config or RetryConfig()
    
    def create_message(self, **kwargs) -> anthropic.types.Message:
        """带重试的消息创建"""
        last_exception = None
        
        for attempt in range(self.config.max_retries + 1):
            try:
                # 检查 Retry-After 头（429 时 Anthropic 会提供）
                response = self.client.messages.create(**kwargs)
                
                if attempt > 0:
                    logger.info(f"Request succeeded on attempt {attempt + 1}")
                
                return response
                
            except anthropic.RateLimitError as e:
                last_exception = e
                
                if attempt >= self.config.max_retries:
                    logger.error(f"Rate limit exceeded after {self.config.max_retries} retries")
                    raise
                
                # 优先使用 API 返回的 retry-after 头
                retry_after = self._get_retry_after(e)
                delay = retry_after or self.config.calculate_delay(attempt)
                
                logger.warning(
                    f"Rate limited (attempt {attempt + 1}/{self.config.max_retries + 1}). "
                    f"Retrying in {delay:.1f}s"
                )
                time.sleep(delay)
                
            except anthropic.APIStatusError as e:
                last_exception = e
                
                if e.status_code not in self.config.retryable_status_codes:
                    # 不可重试错误，立即抛出
                    logger.error(f"Non-retryable error {e.status_code}: {e.message}")
                    raise
                
                if attempt >= self.config.max_retries:
                    logger.error(f"API error after {self.config.max_retries} retries: {e}")
                    raise
                
                delay = self.config.calculate_delay(attempt)
                logger.warning(
                    f"API error {e.status_code} (attempt {attempt + 1}/{self.config.max_retries + 1}). "
                    f"Retrying in {delay:.1f}s"
                )
                time.sleep(delay)
                
            except (anthropic.APIConnectionError, anthropic.APITimeoutError) as e:
                last_exception = e
                
                if attempt >= self.config.max_retries:
                    logger.error(f"Connection error after {self.config.max_retries} retries: {e}")
                    raise
                
                delay = self.config.calculate_delay(attempt)
                logger.warning(
                    f"Connection error (attempt {attempt + 1}/{self.config.max_retries + 1}). "
                    f"Retrying in {delay:.1f}s"
                )
                time.sleep(delay)
        
        raise last_exception
    
    def _get_retry_after(self, error: anthropic.RateLimitError) -> Optional[float]:
        """从错误响应中提取 Retry-After 值"""
        try:
            headers = error.response.headers
            retry_after = headers.get('retry-after') or headers.get('x-ratelimit-reset-requests')
            if retry_after:
                return float(retry_after)
        except Exception:
            pass
        return None

异步重试实现

对于高并发场景，使用异步版本：

import asyncio
import anthropic

class AsyncClaudeClientWithRetry:
    def __init__(self, api_key: str, retry_config: RetryConfig = None):
        self.client = anthropic.AsyncAnthropic(api_key=api_key)
        self.config = retry_config or RetryConfig()
    
    async def create_message(self, **kwargs) -> anthropic.types.Message:
        for attempt in range(self.config.max_retries + 1):
            try:
                return await self.client.messages.create(**kwargs)
                
            except anthropic.RateLimitError as e:
                if attempt >= self.config.max_retries:
                    raise
                
                retry_after = self._get_retry_after(e)
                delay = retry_after or self.config.calculate_delay(attempt)
                
                logger.warning(f"Rate limited, waiting {delay:.1f}s (attempt {attempt + 1})")
                await asyncio.sleep(delay)
                
            except anthropic.APIStatusError as e:
                if e.status_code not in self.config.retryable_status_codes:
                    raise
                if attempt >= self.config.max_retries:
                    raise
                
                delay = self.config.calculate_delay(attempt)
                await asyncio.sleep(delay)

71.3 熔断器模式（Circuit Breaker）

为什么需要熔断器

单纯的重试策略有一个致命弱点：当下游服务（Claude API）持续不可用时，重试会导致请求积压——大量请求在等待重试，消耗连接池资源，最终导致应用整体雪崩。

熔断器模式通过三个状态来优雅地处理这个问题：

关闭状态（Closed）     → 正常处理请求
    ↓ 错误率超阈值
打开状态（Open）       → 快速失败，不发出请求
    ↓ 超时后进入半开
半开状态（Half-Open）  → 试探性发送少量请求
    ↓ 成功则恢复关闭    ↓ 失败则重回打开

import time
from enum import Enum
from dataclasses import dataclass
from typing import Optional

class CircuitState(Enum):
    CLOSED = "closed"
    OPEN = "open"
    HALF_OPEN = "half_open"


@dataclass
class CircuitBreakerConfig:
    failure_threshold: int = 5        # 触发打开的失败次数
    success_threshold: int = 2        # 半开状态回归关闭需要的成功次数
    timeout: float = 60.0             # 打开状态的超时时间（秒）
    half_open_max_calls: int = 3      # 半开状态允许的最大请求数


class CircuitBreaker:
    """
    Claude API 的熔断器实现
    """
    
    def __init__(self, config: CircuitBreakerConfig = None):
        self.config = config or CircuitBreakerConfig()
        self.state = CircuitState.CLOSED
        self.failure_count = 0
        self.success_count = 0
        self.last_failure_time: Optional[float] = None
        self.half_open_calls = 0
        self._lock = asyncio.Lock()
    
    async def call(self, func, *args, **kwargs):
        """通过熔断器调用函数"""
        async with self._lock:
            if self.state == CircuitState.OPEN:
                if self._should_attempt_reset():
                    self.state = CircuitState.HALF_OPEN
                    self.half_open_calls = 0
                    self.success_count = 0
                    logger.info("Circuit breaker: OPEN → HALF_OPEN")
                else:
                    remaining = self.config.timeout - (time.time() - self.last_failure_time)
                    raise CircuitBreakerOpenError(
                        f"Circuit breaker is OPEN. Will try again in {remaining:.0f}s"
                    )
            
            if self.state == CircuitState.HALF_OPEN:
                if self.half_open_calls >= self.config.half_open_max_calls:
                    raise CircuitBreakerOpenError("Circuit breaker: too many calls in HALF_OPEN state")
                self.half_open_calls += 1
        
        try:
            result = await func(*args, **kwargs)
            await self._on_success()
            return result
        except Exception as e:
            await self._on_failure(e)
            raise
    
    async def _on_success(self):
        async with self._lock:
            if self.state == CircuitState.HALF_OPEN:
                self.success_count += 1
                if self.success_count >= self.config.success_threshold:
                    self.state = CircuitState.CLOSED
                    self.failure_count = 0
                    logger.info("Circuit breaker: HALF_OPEN → CLOSED (recovered)")
            elif self.state == CircuitState.CLOSED:
                self.failure_count = 0
    
    async def _on_failure(self, error: Exception):
        async with self._lock:
            self.failure_count += 1
            self.last_failure_time = time.time()
            
            if self.state == CircuitState.HALF_OPEN:
                self.state = CircuitState.OPEN
                logger.warning("Circuit breaker: HALF_OPEN → OPEN (probe failed)")
            elif (self.state == CircuitState.CLOSED and 
                  self.failure_count >= self.config.failure_threshold):
                self.state = CircuitState.OPEN
                logger.warning(
                    f"Circuit breaker: CLOSED → OPEN "
                    f"(failures: {self.failure_count}/{self.config.failure_threshold})"
                )
    
    def _should_attempt_reset(self) -> bool:
        return (self.last_failure_time is not None and 
                time.time() - self.last_failure_time >= self.config.timeout)


class CircuitBreakerOpenError(Exception):
    pass

71.4 降级方案设计

降级策略层次

当 Claude API 不可用时，应有完善的降级方案，而不是直接向用户展示错误：

from enum import Enum
from typing import Optional

class FallbackStrategy(Enum):
    CACHED_RESPONSE = "cached_response"      # 返回缓存的历史响应
    SIMPLER_MODEL = "simpler_model"          # 切换到更简单/本地的模型
    TEMPLATE_RESPONSE = "template_response"  # 返回预设模板响应
    QUEUE_FOR_LATER = "queue_for_later"      # 加入队列稍后处理
    GRACEFUL_ERROR = "graceful_error"        # 优雅的错误提示


class ClaudeFallbackManager:
    """
    Claude API 降级方案管理器
    """
    
    def __init__(
        self,
        cache_client,
        queue_client,
        fallback_model_client = None  # 如备用 LLM 客户端
    ):
        self.cache = cache_client
        self.queue = queue_client
        self.fallback_model = fallback_model_client
    
    async def handle_with_fallback(
        self,
        request_params: dict,
        strategy: FallbackStrategy = FallbackStrategy.CACHED_RESPONSE,
        cache_ttl: int = 3600
    ) -> dict:
        """
        主流程：尝试 Claude API，失败时按策略降级
        """
        cache_key = self._compute_cache_key(request_params)
        
        # 策略 1：缓存响应
        if strategy == FallbackStrategy.CACHED_RESPONSE:
            cached = await self.cache.get(cache_key)
            if cached:
                logger.info("Serving cached response due to API unavailability")
                return {
                    "response": cached,
                    "source": "cache",
                    "degraded": True,
                    "note": "This response may not be fully up to date"
                }
        
        # 策略 2：切换到备用模型
        if strategy == FallbackStrategy.SIMPLER_MODEL and self.fallback_model:
            try:
                # 切换到 Haiku 或其他备用模型
                fallback_params = {
                    **request_params,
                    "model": "claude-haiku-3-5"  # 或其他备用
                }
                response = await self.fallback_model.create(**fallback_params)
                return {
                    "response": response,
                    "source": "fallback_model",
                    "degraded": True,
                    "note": "Using fallback model due to primary service unavailability"
                }
            except Exception as e:
                logger.error(f"Fallback model also failed: {e}")
        
        # 策略 3：预设模板响应
        if strategy == FallbackStrategy.TEMPLATE_RESPONSE:
            template = self._get_template_response(request_params)
            return {
                "response": template,
                "source": "template",
                "degraded": True,
                "note": "AI service temporarily unavailable. Providing standard response."
            }
        
        # 策略 4：加入队列稍后处理
        if strategy == FallbackStrategy.QUEUE_FOR_LATER:
            job_id = await self.queue.enqueue(request_params)
            return {
                "response": None,
                "source": "queued",
                "job_id": job_id,
                "degraded": True,
                "note": "Request queued for processing. You'll be notified when complete."
            }
        
        # 最终降级：优雅错误
        return {
            "response": None,
            "source": "error",
            "degraded": True,
            "error": "AI service is temporarily unavailable. Please try again later."
        }
    
    def _get_template_response(self, request_params: dict) -> str:
        """根据请求类型返回预设模板"""
        messages = request_params.get("messages", [])
        last_user_msg = next(
            (m["content"] for m in reversed(messages) if m["role"] == "user"),
            ""
        )
        
        templates = {
            "greeting": "Hello! I'm temporarily unavailable, but I'll be back shortly.",
            "question": "I'm unable to answer at the moment. Please try again in a few minutes.",
            "default": "The AI service is temporarily unavailable. Please try again later."
        }
        
        return templates.get("default")
    
    def _compute_cache_key(self, request_params: dict) -> str:
        import hashlib, json
        normalized = {
            "model": request_params.get("model"),
            "messages": request_params.get("messages"),
            "system": request_params.get("system")
        }
        return hashlib.md5(
            json.dumps(normalized, sort_keys=True).encode()
        ).hexdigest()

71.5 SLA 保障与监控

SLA 指标定义

对于生产级 Claude API 集成，需要定义和监控以下 SLA 指标：

@dataclass
class SLATargets:
    """SLA 目标定义"""
    availability_pct: float = 99.5    # 可用率 99.5%
    p99_latency_ms: float = 10000     # P99 延迟 10 秒
    p95_latency_ms: float = 5000      # P95 延迟 5 秒
    error_rate_pct: float = 1.0       # 错误率 < 1%
    max_consecutive_failures: int = 3  # 最大连续失败次数


class SLAMonitor:
    """SLA 监控实现"""
    
    def __init__(self, targets: SLATargets, window_minutes: int = 60):
        self.targets = targets
        self.window_minutes = window_minutes
        self.requests = []  # 滑动窗口中的请求记录
    
    def record_request(
        self,
        latency_ms: float,
        success: bool,
        error_code: Optional[str] = None
    ):
        """记录一次 API 请求"""
        now = time.time()
        
        # 清除窗口外的旧记录
        window_start = now - (self.window_minutes * 60)
        self.requests = [r for r in self.requests if r["timestamp"] > window_start]
        
        self.requests.append({
            "timestamp": now,
            "latency_ms": latency_ms,
            "success": success,
            "error_code": error_code
        })
    
    def get_current_sla(self) -> dict:
        """计算当前 SLA 状态"""
        if not self.requests:
            return {"status": "no_data"}
        
        total = len(self.requests)
        successes = sum(1 for r in self.requests if r["success"])
        errors = total - successes
        
        latencies = sorted([r["latency_ms"] for r in self.requests if r["success"]])
        p95_latency = latencies[int(len(latencies) * 0.95)] if latencies else 0
        p99_latency = latencies[int(len(latencies) * 0.99)] if latencies else 0
        
        availability = successes / total * 100
        error_rate = errors / total * 100
        
        sla_status = {
            "availability_pct": round(availability, 2),
            "error_rate_pct": round(error_rate, 2),
            "p95_latency_ms": round(p95_latency, 1),
            "p99_latency_ms": round(p99_latency, 1),
            "sample_size": total,
            "window_minutes": self.window_minutes
        }
        
        # 计算 SLA 是否达标
        sla_status["violations"] = {
            "availability": availability < self.targets.availability_pct,
            "p99_latency": p99_latency > self.targets.p99_latency_ms,
            "p95_latency": p95_latency > self.targets.p95_latency_ms,
            "error_rate": error_rate > self.targets.error_rate_pct
        }
        
        sla_status["is_healthy"] = not any(sla_status["violations"].values())
        
        return sla_status

超时配置的最佳实践

# 针对不同场景的超时配置建议

TIMEOUT_CONFIGS = {
    "interactive": {
        "description": "实时交互场景（聊天机器人）",
        "connect_timeout": 5.0,    # 连接超时 5 秒
        "read_timeout": 30.0,      # 读取超时 30 秒
        "max_tokens": 1024,        # 限制输出长度以控制延迟
    },
    "batch_processing": {
        "description": "批量处理场景（文档分析）",
        "connect_timeout": 10.0,
        "read_timeout": 300.0,     # 允许更长时间
        "max_tokens": 4096,
    },
    "streaming": {
        "description": "流式输出场景",
        "connect_timeout": 5.0,
        "read_timeout": 120.0,     # 流式响应的首 token 超时
        "max_tokens": 8192,        # 流式可以设置更大的输出
    }
}

def create_client_with_timeout(scenario: str) -> anthropic.Anthropic:
    config = TIMEOUT_CONFIGS.get(scenario, TIMEOUT_CONFIGS["interactive"])
    
    return anthropic.Anthropic(
        timeout=anthropic.Timeout(
            connect=config["connect_timeout"],
            read=config["read_timeout"],
            write=10.0,
            pool=5.0
        )
    )

71.6 生产环境的完整错误处理架构

class ProductionClaudeService:
    """
    生产级 Claude 服务封装
    集成重试、熔断器、降级方案和 SLA 监控
    """
    
    def __init__(self, config: dict):
        self.retry_client = ClaudeClientWithRetry(
            api_key=config["api_key"],
            retry_config=RetryConfig(
                max_retries=3,
                base_delay=1.0,
                max_delay=30.0
            )
        )
        
        self.circuit_breaker = CircuitBreaker(
            CircuitBreakerConfig(
                failure_threshold=5,
                timeout=60.0
            )
        )
        
        self.fallback_manager = ClaudeFallbackManager(
            cache_client=config["cache"],
            queue_client=config["queue"]
        )
        
        self.sla_monitor = SLAMonitor(
            targets=SLATargets(),
            window_minutes=60
        )
    
    async def complete(self, **kwargs) -> dict:
        start_time = time.time()
        
        try:
            # 通过熔断器调用（内含重试逻辑）
            response = await self.circuit_breaker.call(
                self.retry_client.create_message,
                **kwargs
            )
            
            latency = (time.time() - start_time) * 1000
            self.sla_monitor.record_request(latency, success=True)
            
            return {"response": response, "degraded": False}
            
        except CircuitBreakerOpenError:
            # 熔断器打开，立即降级
            logger.warning("Circuit breaker open, using fallback")
            return await self.fallback_manager.handle_with_fallback(kwargs)
            
        except (anthropic.RateLimitError, anthropic.APIStatusError) as e:
            latency = (time.time() - start_time) * 1000
            self.sla_monitor.record_request(
                latency, success=False, error_code=str(getattr(e, 'status_code', 'unknown'))
            )
            
            # 根据错误类型选择降级策略
            if isinstance(e, anthropic.RateLimitError):
                return await self.fallback_manager.handle_with_fallback(
                    kwargs, strategy=FallbackStrategy.QUEUE_FOR_LATER
                )
            return await self.fallback_manager.handle_with_fallback(kwargs)

小结

生产环境的错误处理是 Claude API 集成工程化程度的集中体现。核心要素包括：正确区分可重试和不可重试错误；实现带随机抖动的指数退避算法以应对速率限制；部署熔断器防止级联故障；准备多层次降级方案确保服务降级而非完全中断；以及持续监控 SLA 指标以实现主动运维。

构建这套体系的投入，会在生产事故（无论是 Anthropic 的服务波动还是业务流量突增）中被完整地回报：用户体验的稳定性和团队在凌晨收到告警时的从容，都取决于这些工程保障是否到位。

本章评分

4.8 / 5 (3 评分)