第 25 章

Token 开销深度剖析：73% 固定开销的来源

第25章：Token 开销深度剖析：73% 固定开销的来源

当你以为在为"思考"付费时，实际上你在为"准备工作"付费。社区研究者发现，Hermes Agent 每次 API 调用中，约 73% 的 Token 消耗与用户真正的任务无关——它们是框架运转的"基础设施成本"。理解这一现象，是优化成本的第一步。

25.1 现象复现：73% 固定开销的发现过程

社区发现的背景

2024 年初，NousResearch 社区论坛上出现了一个引发广泛讨论的帖子。一位名为 @tokenwatcher 的研究者对自己部署的 Hermes Agent 实例进行了为期两周的 Token 审计，得出了令人震惊的结论：

"我统计了 12,000 次 API 调用，平均每次调用消耗 19,041 tokens。其中用户 prompt 平均只有 312 tokens，模型输出平均 1,847 tokens。其余约 16,882 tokens——也就是 88.7%——是我从未显式写过的内容。"

这个数字迅速在社区引发了追踪测量热潮。经过多位研究者的校正和补充（排除了系统提示中用户自定义部分、长对话历史等变量），标准 Hermes Agent 部署的固定开销稳定在 13,700–14,100 tokens 范围内，占典型调用的 65%–78%，中位数约为 73%。

复现方法

你可以通过以下脚本自行复现这一测量：

import anthropic
import json
from dataclasses import dataclass
from typing import Optional

@dataclass
class TokenAudit:
    call_id: int
    input_tokens: int
    output_tokens: int
    user_message_tokens: int
    estimated_overhead: int
    overhead_ratio: float

def measure_hermes_overhead(
    client: anthropic.Anthropic,
    user_message: str = "What is 2+2?",
    runs: int = 10
) -> list[TokenAudit]:
    """
    通过发送极简用户消息，隔离测量框架固定开销。
    用户消息越短，固定开销占比越接近真实比例。
    """
    results = []
    
    # 先单独测量用户消息的 token 数
    count_response = client.messages.count_tokens(
        model="claude-3-5-sonnet-20241022",
        messages=[{"role": "user", "content": user_message}]
    )
    user_msg_tokens = count_response.input_tokens
    
    for i in range(runs):
        # 使用标准 Hermes Agent 配置发起调用
        response = client.messages.create(
            model="claude-3-5-sonnet-20241022",
            max_tokens=100,
            system=load_hermes_system_prompt(),   # 加载标准系统提示
            tools=load_hermes_tools(),             # 加载标准工具集
            messages=[{"role": "user", "content": user_message}]
        )
        
        overhead = response.usage.input_tokens - user_msg_tokens
        ratio = overhead / response.usage.input_tokens
        
        results.append(TokenAudit(
            call_id=i,
            input_tokens=response.usage.input_tokens,
            output_tokens=response.usage.output_tokens,
            user_message_tokens=user_msg_tokens,
            estimated_overhead=overhead,
            overhead_ratio=ratio
        ))
    
    return results

def report(audits: list[TokenAudit]):
    avg_overhead = sum(a.estimated_overhead for a in audits) / len(audits)
    avg_ratio = sum(a.overhead_ratio for a in audits) / len(audits)
    print(f"平均固定开销: {avg_overhead:.0f} tokens")
    print(f"平均开销占比: {avg_ratio:.1%}")

实测结果（基于 Claude 3.5 Sonnet + 标准 Hermes 配置，2024 年 Q4 数据）：

测试轮次	总输入 Token	用户消息 Token	固定开销 Token	占比
第 1 轮	14,203	8	14,195	99.9%
第 2 轮	14,198	8	14,190	99.9%
典型任务	19,100	4,800	14,300	74.9%
复杂任务	28,500	13,900	14,600	51.2%

注意：当用户消息极短时，固定开销占比接近 100%。73% 是典型业务场景下（用户消息约 2,000–5,000 tokens）的代表性数字，并非绝对值。

25.2 开销来源分解：那 13,900 个 Token 从哪里来？

完整的开销分解图

经过对 Hermes Agent 源码的分析和 Token 计数实验，固定开销可以分解为以下几个层次：

总固定开销：~13,900 tokens
├── 系统提示（System Prompt）         ~4,200 tokens  (30.2%)
│   ├── 角色定义与行为规范              ~800 tokens
│   ├── 工具使用指南（内嵌文档）         ~1,600 tokens
│   ├── 输出格式要求（XML/JSON 规范）    ~600 tokens
│   ├── 安全与边界约束                  ~400 tokens
│   └── 示例对话（few-shot examples）  ~800 tokens
│
├── 工具定义（Tool Definitions）       ~6,800 tokens  (48.9%)
│   ├── 标准工具集（~15 个工具）         ~5,200 tokens
│   │   ├── file_operations 工具集      ~1,100 tokens
│   │   ├── web_search 工具            ~800 tokens
│   │   ├── code_execution 工具        ~900 tokens
│   │   ├── memory_tools 工具集        ~1,200 tokens
│   │   └── 其他工具                   ~1,200 tokens
│   └── 工具 JSON Schema 开销          ~1,600 tokens
│
├── 记忆注入（Memory Injection）       ~2,100 tokens  (15.1%)
│   ├── MEMORY.md 内容                 ~1,400 tokens
│   ├── 会话摘要（Session Summary）    ~400 tokens
│   └── 用户偏好配置                   ~300 tokens
│
└── 格式化开销（Formatting Overhead）  ~800 tokens   (5.8%)
    ├── XML 标签与结构标记              ~300 tokens
    ├── 消息角色前缀                   ~200 tokens
    └── 特殊 Token 与分隔符            ~300 tokens

工具定义：最大的隐形开销

工具定义是固定开销中占比最大的部分（约 49%），也是最容易被忽视的。每个工具的 JSON Schema 都包含大量结构性内容：

// 一个典型工具定义的 Token 组成示例
{
  "name": "read_file",                    // ~4 tokens
  "description": "Read the contents...", // ~80 tokens（描述是大头）
  "input_schema": {
    "type": "object",
    "properties": {
      "path": {
        "type": "string",
        "description": "The file path..."  // ~30 tokens
      },
      "encoding": {
        "type": "string",
        "enum": ["utf-8", "latin-1", "ascii"],
        "default": "utf-8",
        "description": "File encoding..."   // ~40 tokens
      },
      "start_line": { ... },               // ~35 tokens
      "end_line": { ... }                  // ~35 tokens
    },
    "required": ["path"]
  }
}
// 合计：约 224 tokens（仅一个中等复杂度工具）

标准 Hermes 工具集包含约 15–20 个工具，累计 5,000–7,000 tokens 是完全合理的。

不同平台的 Token 分布对比

平台/框架	系统提示	工具定义	记忆注入	其他	总固定开销
Hermes Agent (标准)	4,200	6,800	2,100	800	13,900
LangChain ReAct	2,800	4,200	500	400	7,900
AutoGPT	5,600	3,100	8,000+	600	17,300+
OpenAI Assistants	1,200	5,500	300	200	7,200
CrewAI (单 Agent)	3,400	3,800	600	300	8,100
裸 API 调用	0–500	0–2,000	0	100	100–2,600

结论：Hermes Agent 的固定开销高于多数同类框架，主要原因是其更丰富的内置工具集和更详细的系统提示规范。这是能力与成本的权衡。

25.3 降低固定开销的策略

策略一：按需加载工具（Tool Lazy Loading）

核心思路：不在每次调用时注入所有工具，而是根据用户意图动态选择相关工具子集。

from hermes import HermesAgent
from hermes.tools import ToolRegistry

# 定义工具分组
TOOL_GROUPS = {
    "coding": ["read_file", "write_file", "execute_code", "search_code"],
    "web": ["web_search", "fetch_url", "extract_content"],
    "memory": ["remember", "recall", "forget"],
    "analysis": ["analyze_data", "create_chart", "export_csv"],
}

class LazyToolAgent(HermesAgent):
    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.tool_classifier = ToolClassifier()  # 意图分类器
    
    async def prepare_tools(self, user_message: str) -> list:
        """根据用户消息动态选择工具子集"""
        # 使用轻量分类器（无需 LLM）预测所需工具类别
        predicted_groups = self.tool_classifier.predict(user_message)
        
        selected_tools = []
        for group in predicted_groups:
            selected_tools.extend(TOOL_GROUPS.get(group, []))
        
        # 始终包含基础工具
        selected_tools.extend(["task_complete", "ask_user"])
        
        return self.tool_registry.get_tools(selected_tools)
    
    async def run(self, user_message: str):
        # 动态选择工具，而非使用全量工具集
        tools = await self.prepare_tools(user_message)
        return await super().run(user_message, tools=tools)

# 工具分类器（基于关键词，无需 API 调用）
class ToolClassifier:
    KEYWORDS = {
        "coding": ["代码", "文件", "运行", "调试", "函数", "code", "file", "run", "debug"],
        "web": ["搜索", "网页", "查找", "search", "web", "url", "browse"],
        "memory": ["记住", "记录", "之前", "remember", "recall", "history"],
        "analysis": ["分析", "图表", "数据", "analyze", "chart", "data"],
    }
    
    def predict(self, message: str) -> list[str]:
        message_lower = message.lower()
        return [
            group for group, keywords in self.KEYWORDS.items()
            if any(kw in message_lower for kw in keywords)
        ] or ["coding"]  # 默认使用编码工具组

效果：按需加载可将工具相关 Token 从 6,800 降至 1,500–3,000，节省 55%–78%。

策略二：精简 MEMORY.md

MEMORY.md 是记忆注入的主要来源。默认配置中，整个 MEMORY.md 文件会在每次调用时注入。

# 精简策略1：只注入相关记忆片段
class SmartMemoryLoader:
    def __init__(self, memory_path: str):
        self.memory_path = memory_path
        self.embedder = SimpleEmbedder()  # 本地轻量嵌入模型
        self._index_memory()
    
    def _index_memory(self):
        """将 MEMORY.md 按条目建立向量索引"""
        with open(self.memory_path) as f:
            content = f.read()
        
        # 按段落/条目分割
        self.entries = self._parse_memory_entries(content)
        self.vectors = self.embedder.embed_batch(
            [e.text for e in self.entries]
        )
    
    def retrieve_relevant(
        self, 
        query: str, 
        top_k: int = 5,
        max_tokens: int = 800
    ) -> str:
        """检索与当前查询最相关的记忆条目"""
        query_vec = self.embedder.embed(query)
        scores = cosine_similarity(query_vec, self.vectors)
        
        top_indices = scores.argsort()[-top_k:][::-1]
        relevant_entries = [self.entries[i] for i in top_indices]
        
        # 按 Token 预算截断
        result = []
        token_count = 0
        for entry in relevant_entries:
            entry_tokens = estimate_tokens(entry.text)
            if token_count + entry_tokens > max_tokens:
                break
            result.append(entry.text)
            token_count += entry_tokens
        
        return "\n\n".join(result)

精简 MEMORY.md 内容规范：

类型	保留	删除
用户偏好	核心偏好（<200 tokens）	冗余描述和背景
项目信息	关键配置和路径	历史决策过程
技术笔记	当前活跃的参考信息	已过时的笔记
会话历史	最近 3–5 条关键决策	完整对话记录

策略三：压缩系统提示

通过审查系统提示中的冗余内容，通常可以减少 30%–40% 的系统提示 Token：

# 系统提示优化对比示例

# 原始版本（~800 tokens）
ORIGINAL_PROMPT = """
You are Hermes, an advanced AI assistant created by NousResearch. 
Your primary purpose is to assist users with a wide variety of tasks.
You have access to various tools that allow you to perform actions.
When using tools, you should carefully consider which tool is most 
appropriate for the task at hand. Always think step by step before
taking action. Make sure to verify your work and double-check results.
When you encounter errors, handle them gracefully and inform the user.
...（更多冗余内容）
"""

# 精简版本（~280 tokens）  
OPTIMIZED_PROMPT = """
You are Hermes, an AI assistant by NousResearch.
- Use tools when needed; prefer minimal tool calls
- Think before acting; verify results
- Handle errors gracefully
- Be concise unless detail is requested
"""

25.4 Token 预算管理最佳实践

建立 Token 预算意识

class TokenBudgetManager:
    """Token 预算管理器：在调用前预估并控制总开销"""
    
    def __init__(
        self,
        model: str = "claude-3-5-sonnet-20241022",
        budget_per_call: int = 20_000,
        alert_threshold: float = 0.85
    ):
        self.model = model
        self.budget = budget_per_call
        self.threshold = alert_threshold
        
        # 各部分 Token 配额（根据优化后的实测值）
        self.allocations = {
            "system_prompt": 2_500,    # 优化后
            "tools": 3_000,            # 按需加载后
            "memory": 800,             # 精简后
            "conversation_history": 5_000,
            "user_message": 4_000,
            "model_output_reserve": 4_700,
        }
    
    def check_budget(self, estimated_tokens: dict) -> BudgetReport:
        total_estimated = sum(estimated_tokens.values())
        remaining = self.budget - total_estimated
        
        report = BudgetReport(
            estimated_total=total_estimated,
            budget=self.budget,
            remaining=remaining,
            breakdown=estimated_tokens,
            warning=total_estimated > self.budget * self.threshold
        )
        
        if report.warning:
            # 自动触发压缩策略
            self._apply_compression(estimated_tokens)
        
        return report
    
    def _apply_compression(self, tokens: dict):
        """按优先级压缩各部分"""
        # 压缩优先级：历史记录 > 记忆 > 工具 > 系统提示
        if tokens.get("conversation_history", 0) > 3_000:
            self._compress_history()
        if tokens.get("memory", 0) > 600:
            self._compress_memory()

Token 效率优化的叠加收益

优化策略	单独效果	可叠加
按需加载工具	节省 3,000–5,000 tokens	是
精简 MEMORY.md	节省 800–1,500 tokens	是
压缩系统提示	节省 1,000–2,000 tokens	是
Prompt Caching	减少 50% 计费 tokens	是
对话历史压缩	节省 1,000–8,000 tokens	是
组合优化	总节省 60%–80%	—

监控 Dashboard 示例

# 生产环境 Token 监控
import time
from collections import defaultdict

class TokenMonitor:
    def __init__(self):
        self.daily_stats = defaultdict(lambda: {
            "calls": 0,
            "total_input": 0,
            "total_output": 0,
            "total_cost_usd": 0
        })
    
    def record_call(self, response, cost_per_1k_input=0.003):
        today = time.strftime("%Y-%m-%d")
        stats = self.daily_stats[today]
        stats["calls"] += 1
        stats["total_input"] += response.usage.input_tokens
        stats["total_output"] += response.usage.output_tokens
        stats["total_cost_usd"] += (
            response.usage.input_tokens / 1000 * cost_per_1k_input +
            response.usage.output_tokens / 1000 * cost_per_1k_input * 5
        )
    
    def daily_report(self, date: str = None) -> str:
        date = date or time.strftime("%Y-%m-%d")
        s = self.daily_stats[date]
        avg_input = s["total_input"] / max(s["calls"], 1)
        
        return f"""
=== Token 日报 {date} ===
总调用次数: {s['calls']}
平均输入 Token: {avg_input:.0f}
  其中固定开销(估): {avg_input * 0.73:.0f} ({73:.0f}%)
  其中有效内容(估): {avg_input * 0.27:.0f} ({27:.0f}%)
日总费用: ${s['total_cost_usd']:.2f}
"""

25.5 小结

本章深入剖析了 Hermes Agent 73% 固定 Token 开销这一社区发现：

开销来源：工具定义（~49%）> 系统提示（~30%）> 记忆注入（~15%）> 格式开销（~6%）
核心数字：标准部署固定开销约 13,900 tokens，在典型业务场景下占总调用的 65%–78%
三大优化策略：按需加载工具（节省最多）、精简 MEMORY.md、压缩系统提示
组合优化：叠加所有策略后，有效内容 Token 占比可从 27% 提升至 60%–70%

理解固定开销不仅关乎省钱，更关乎理解框架的运作机制。知道每一分钱花在哪里，才能在能力与成本之间做出明智的权衡。

思考题

在你自己的 Hermes Agent 部署中，工具定义占固定开销的比例是否与本章数据吻合？若有差异，可能的原因是什么？
按需加载工具依赖意图分类器的准确性。如果分类器误判，遗漏了某个必要工具，Agent 会如何处理？这对用户体验有何影响？
假设你有一个场景：用户消息始终很短（平均 50 tokens），但业务需要完整工具集。此时，除了本章策略外，还有哪些优化思路？
Token 预算管理中，"压缩对话历史"可能丢失重要上下文。如何设计一个既节省 Token 又不损失关键上下文的历史压缩策略？

本章评分

4.7 / 5 (7 评分)