第 7 章

LLM Agent 演进史：从规则到自主

第七章：LLM Agent 演进史：从规则到自主

章节导语

要真正理解 Hermes Agent 为什么是这样设计的，以及它代表着什么方向，必须了解它所处的历史脉络。AI Agent 的发展并非一条平滑的进步曲线，而是充满了失败、顿悟、错误赌注和意外突破的迂回之路。本章将带你走过从1956年达特茅斯会议，到2025年自主 Agent 生态爆发的七十年历史——每一个关键节点，都是理解今天的钥匙。

7.1 第一纪元：规则与符号（1956-1990年代）

达特茅斯的预言与期望

1956年夏天，麦卡锡（John McCarthy）、明斯基（Marvin Minsky）等人在达特茅斯学院召开了一次历史性的会议。他们的共同信念是：智能的所有方面，原则上都可以被精确地描述，并用机器来模拟。这就是人工智能领域的诞生时刻。

他们当时的预期乐观得令人咋舌：两个月内，一个由10个人组成的小组，将在理解自然语言、解决代数问题和形成抽象概念方面取得重大进展。

我们都知道后来发生了什么——这个预期至少低估了实现难度70年。

专家系统的辉煌与局限（1970s-1990s）

1970年代到1990年代，"专家系统"（Expert System）是 AI Agent 的主要形式：

专家系统的工作原理：
┌──────────────────────────────────────────────┐
│              知识库                            │
│  规则1: IF 发烧 AND 咳嗽 THEN 可能感冒         │
│  规则2: IF 感冒 AND 持续超过7天 THEN 就医建议   │
│  规则3: IF [1000条类似规则...]                 │
└──────────────────────────────────────────────┘
              ↕
┌──────────────────────────────────────────────┐
│              推理引擎                           │
│  • 前向链推理（从事实推结论）                   │
│  • 后向链推理（从目标推条件）                   │
└──────────────────────────────────────────────┘

典型代表：

MYCIN（1976年，Stanford）：医疗诊断系统，规则数超过600条，诊断准确率达到65%
XCON（1982年，DEC）：配置计算机系统，每年节省DEC约4000万美元
Cyc（1984年-至今）：试图编码人类所有常识的超大规模知识库，目前包含超过2400万个断言

辉煌成就：在特定有限领域内，表现超越了人类专家

致命局限：

专家系统的"知识获取瓶颈"：
- 规则需要专家手工编写
- 规则数量呈指数级爆炸
- 无法处理规则集之外的情况
- 每进入一个新领域，就需要从头重建

这就是著名的"脆性问题"（Brittleness Problem）：专家系统在其知识范围内表现极佳，一旦超出边界就完全失效，没有任何"常识"兜底。

第一次 AI 寒冬（1974-1980年，1987-1993年）

两次 AI 寒冬的共同原因是：承诺过多，兑现过少。研究者们屡次宣布"通用 AI 即将到来"，政府和企业削减资金投入后，整个领域陷入停滞。

这段历史的教训对今天仍然适用：技术炒作与技术现实之间的落差，是 AI 领域永恒的风险。

7.2 第二纪元：统计与机器学习（1990s-2017年）

范式转变：从手工规则到统计学习

1990年代，机器学习的兴起带来了根本性的范式转变：

范式转变：
旧范式（规则驱动）：  人类专家 → 规则 → 系统
新范式（学习驱动）：  数据 → 算法 → 模型

关键里程碑：

1997年：IBM Deep Blue 击败国际象棋世界冠军卡斯帕罗夫（规则+启发式搜索）
2006年：Hinton 提出深度学习，重燃神经网络研究热情
2012年：AlexNet 在 ImageNet 竞赛中以巨大优势获胜，深度学习时代正式开始

强化学习 Agent 的崛起（2013-2017年）

这一时期，基于强化学习的 Agent 取得了令人震惊的成就：

年份	成就	意义
2013年	DeepMind DQN：Atari 游戏	AI 首次通过自学习在多种游戏中超越人类
2016年	AlphaGo 击败李世石	人类认为最复杂的棋类游戏被 AI 征服
2017年	AlphaZero：从零自学象棋/围棋	4小时内超越所有人类训练的引擎
2019年	OpenAI Five：Dota2 多智能体	复杂多 Agent 协作的里程碑

但这类 Agent 有一个共同的局限：极度特化。AlphaGo 不会下象棋，DQN 的 Breakout 技能无法迁移到 Pong——每个 Agent 都是为特定环境从头训练的。

这与我们理想中的"通用 Agent"相距甚远。

7.3 第三纪元：LLM 赋能的 Agent（2017-2023年）

Transformer 的诞生与 LLM 的崛起

2017年，Google 发布 "Attention Is All You Need" 论文，Transformer 架构横空出世。随后的发展速度令所有人目瞪口呆：

Transformer 时代的 LLM 规模扩张：
2018年：GPT-1     1.17亿参数
2019年：GPT-2     15亿参数
2020年：GPT-3     1750亿参数  ← 涌现能力被首次广泛观察
2022年：ChatGPT   --（服务发布，全球现象）
2023年：GPT-4     --（参数未公开）
2024年：Llama 3.1 4050亿参数（开源）
2025年：Hermes 4  405亿参数（基于 Llama 3.1 微调）

ReAct：LLM Agent 的基础范式（2022年）

2022年，Yao 等人发表了 ReAct 论文，确立了现代 LLM Agent 的基础执行范式：

ReAct = Reasoning（推理）+ Acting（行动）

# ReAct 范式的伪代码实现
def react_agent(task: str, tools: dict) -> str:
    context = f"Task: {task}"
    
    while not is_task_complete(context):
        # Thought（推理步骤）
        thought = llm.complete(
            prompt=f"{context}\nThought: 让我思考下一步...",
        )
        
        # Action（行动步骤）
        action = llm.complete(
            prompt=f"{context}\n{thought}\nAction: ",
        )
        tool_name, tool_params = parse_action(action)
        
        # Observation（观察步骤）
        observation = tools[tool_name](**tool_params)
        
        context += f"\nThought: {thought}\nAction: {action}\nObservation: {observation}"
    
    return extract_final_answer(context)

ReAct 的意义：首次证明了 LLM 可以在推理和行动之间交替，完成需要外部工具的多步骤任务。这是从"语言生成"到"实际行动"的关键跨越。

Auto-GPT：第一次大规模 Agent 实验（2023年3月）

2023年3月，Significant Gravitas 发布了 Auto-GPT。在短短几天内，它成为 GitHub 历史上增长最快的项目之一（6天内超过50,000 Star）。

Auto-GPT 的革命性：

# Auto-GPT 的核心思想（简化版）
class AutoGPT:
    def __init__(self, goal: str):
        self.goal = goal
        self.memory = []
        self.tools = [WebSearch(), FileWrite(), CodeExecute(), ...]
    
    def run(self):
        while not self.is_goal_achieved():
            # 让 GPT-4 自主决定下一步
            next_action = gpt4.decide(
                goal=self.goal,
                memory=self.memory,
                available_tools=self.tools
            )
            result = self.execute(next_action)
            self.memory.append(result)

Auto-GPT 的失败与教训：

尽管概念振奋人心，Auto-GPT 在实际使用中暴露了严重问题：

问题	表现	根本原因
目标漂移	忘记原始目标，陷入子任务	长程推理能力不足
无限循环	重复执行同一步骤无法自拔	缺乏元认知能力
幻觉行动	调用不存在的工具或错误参数	LLM 工具调用能力不足
成本爆炸	完成简单任务花费数十美元	无效 API 调用过多
不可预测性	相同任务每次结果差异极大	缺乏确定性执行框架

Auto-GPT 的历史价值：它证明了"自主 AI Agent"的概念可以用 LLM 实现，但也清晰地划出了当时技术的边界。它更像是一个概念验证，而不是可用产品。

7.4 第四纪元：现代 Agent 架构的收敛（2023-2024年）

从 Auto-GPT 的教训中学习

2023年下半年到2024年，Agent 领域的主要工作是吸取 Auto-GPT 的教训，系统性地解决其暴露的问题：

问题1：目标漂移 → 解决方案：明确任务分解

# 现代 Agent 的任务分解
class ModernAgent:
    def decompose_task(self, task: str) -> list[Subtask]:
        """将大任务分解为有明确验证标准的子任务"""
        subtasks = self.planner.plan(task)
        for subtask in subtasks:
            subtask.success_criteria = self.define_criteria(subtask)
        return subtasks
    
    def verify_completion(self, subtask: Subtask, result: str) -> bool:
        """明确验证子任务是否真正完成"""
        return self.evaluator.check(result, subtask.success_criteria)

问题2：无限循环 → 解决方案：执行步数限制 + 回退机制

def run_with_safeguards(self, task, max_steps=50):
    for step in range(max_steps):
        action = self.next_action(task)
        if self.detect_loop(action):
            return self.escalate_to_human(task)  # 超出能力范围时上报
        result = self.execute(action)
    return self.summarize_partial_progress()

问题3：LLM 工具调用不准确 → 解决方案：专用微调

这是 Hermes 系列 LLM 诞生的直接动因。通过 Atropos RL 专门优化工具调用准确性，Hermes 4 在工具调用任务上的错误率比通用 GPT-4 低约40%（内部基准测试）。

Voyager：Skill 系统的先驱（2023年5月）

Voyager（Wang et al., 2023）是 Minecraft 环境中的 LLM Agent，首次在主流论文中引入了 Skill 库的概念：

Voyager 的 Skill 系统工作原理：
─────────────────────────────────────
新任务到来
    ↓
检索相关 Skill（向量数据库查询）
    ↓
尝试组合现有 Skill 完成任务
    ↓
如果失败：生成新代码（新 Skill）
    ↓
验证新 Skill 是否有效
    ↓
将有效 Skill 存入 Skill 库
    ↓
（下次遇到相似任务时直接使用）

Voyager 的核心发现：具备 Skill 积累能力的 Agent，在长期任务中的表现远优于无 Skill 积累的 Agent。这一发现直接影响了 Hermes 的设计。

MemGPT：上下文管理的突破（2023年10月）

Packer 等人发布的 MemGPT 解决了 Agent 长期运行的"失忆"问题：

MemGPT 的分层记忆架构：
┌────────────────────────────────────┐
│          主上下文（有限）            │
│  当前任务相关信息 + 活跃工作记忆     │
└──────────────────┬─────────────────┘
                   │ 当接近上限时
                   ↓
┌────────────────────────────────────┐
│      外部存储（无限）               │
│  归档记忆 + 历史对话 + 知识库       │
└────────────────────────────────────┘
                   ↑
        按需检索相关信息

这个双层架构启发了 Hermes 的双重压缩系统设计。

7.5 2024-2026 关键里程碑时间线

2024年1月
──────────
• OpenAI 发布 GPT-4-turbo，128K 上下文窗口
• Anthropic 发布 Claude 3（Haiku/Sonnet/Opus）
• LangChain/LlamaIndex 工具调用规范化

2024年4月
──────────
• Meta 发布 Llama 3（8B/70B）开源
• NousResearch 基于 Llama 3 发布 Hermes 3
• AutoGen 1.0 正式发布，多 Agent 框架规范化

2024年7月
──────────
• Anthropic 发布 MCP（Model Context Protocol）协议
• Claude 3.5 Sonnet 发布，工具调用能力飞跃
• OpenAI 发布 GPT-4o，多模态 Agent 能力提升

2024年9月
──────────
• Meta 发布 Llama 3.1（8B/70B/405B），405B 开源创纪录
• Hermes 4 基于 Llama 3.1 开始训练（Atropos RL）
• MCP 生态工具数量超过200个

2024年11月
───────────
• OpenAI 发布 o1 系列，Chain-of-Thought 能力飞跃
• Google 发布 Gemini 2.0，原生多模态 Agent
• CrewAI 达到10万用户

2025年1月
──────────
• NousResearch 正式发布 Hermes Agent 框架（开源）
• Hermes 4 模型公开发布，Benchmark 表现超越 GPT-4-turbo
• Agent 框架月活用户数行业整体突破100万

2025年3月
──────────
• Anthropic 发布 Claude 3.7 Sonnet（扩展思考模式）
• Hermes Agent v0.5 发布，Skill 库功能稳定
• MCP 成为业界事实标准，工具数量超500个

2025年6月
──────────
• Meta 发布 Llama 4（Scout/Maverick系列）
• Hermes Agent v0.8 发布，多平台支持完善
• OpenAI 发布 Agents SDK，与 Hermes 直接竞争

2026年（预期）
───────────────
• Agent 协作标准化（A2A Protocol 等）
• 长期自主运行 Agent 成为企业标配
• Hermes 4 Plus 发布（专为多步骤任务优化）

7.6 现代 Agent 架构的收敛趋势

历经多年演进，Agent 领域在2024-2025年形成了几个明确的架构共识：

共识一：ReAct 框架是最优执行基础

尽管有各种变体（ReWOO、Reflexion、LATS 等），ReAct 的"思考-行动-观察"三步循环仍然是最稳定的执行基础。

共识二：外部记忆是长期 Agent 的必需品

所有主流框架（Hermes、LangChain、MemGPT）都采用了某种形式的外部记忆。纯粹依赖上下文窗口的 Agent 无法处理长期任务。

共识三：工具调用质量是 Agent 能力的天花板

一个 Agent 再聪明，如果工具调用错误率高，就无法在生产环境使用。这驱动了专用 Agent 模型（Hermes 系列）的兴起。

共识四：学习积累是下一个竞争前沿

当工具调用和基础推理能力趋于平稳后，"Agent 能否从经验中学习"成为了新的分水岭。Hermes 的 Skill 库是目前最成熟的实现。

本章小结

七十年的 AI Agent 演进史，给我们留下了以下核心认知：

规则驱动的尽头：专家系统证明了手工规则无法覆盖现实世界的复杂度
学习驱动的潜力：统计学习和深度学习开辟了"从数据中自动学习规律"的新路径
LLM 的范式跃迁：Transformer 和大规模预训练将 Agent 能力从"特化"推向"通用"
Auto-GPT 的启示：理想与现实的落差催生了严格的工程化设计（Hermes 等现代框架）
收敛的架构共识：ReAct + 外部记忆 + 工具调用优化 + 学习积累，成为现代 Agent 的四大支柱

Hermes 站在这七十年历史的肩膀上，试图将"学习积累"这一最后的竞争前沿系统化。理解了这段历史，你就理解了 Hermes 存在的必然性。

思考题

专家系统的"脆性问题"与现代 LLM Agent 的"幻觉问题"，有什么本质上的相似之处？现代 Agent 框架是否真正解决了脆性问题，还是只是将其转移了形式？
Auto-GPT 的失败揭示了一个深刻的问题：目标对齐（Goal Alignment）。如何确保 Agent 在自主执行过程中始终对准原始目标？Hermes 的设计是如何回应这个问题的？
从达特茅斯到 GPT-4，AI 研究者多次因过于乐观的预测而陷入寒冬。今天（2025年）的 AI Agent 热潮，是合理的技术预期，还是又一轮过度炒作？你的判断依据是什么？
如果你来设计"Agent 演进史的第五纪元"（2027年以后），你认为下一个关键技术突破会在哪个方向？是更强的推理能力、更好的学习机制、还是多 Agent 协作，或者完全未预期的方向？

下一章：NousResearch 与 Hermes 模型谱系——了解构建 Hermes 框架背后的团队，以及 Hermes 1/2/3/4 各版本的完整技术演进

本章评分

4.6 / 5 (71 评分)