LLM Agent 演进史:从规则到自主
第七章:LLM Agent 演进史:从规则到自主
章节导语
要真正理解 Hermes Agent 为什么是这样设计的,以及它代表着什么方向,必须了解它所处的历史脉络。AI Agent 的发展并非一条平滑的进步曲线,而是充满了失败、顿悟、错误赌注和意外突破的迂回之路。本章将带你走过从1956年达特茅斯会议,到2025年自主 Agent 生态爆发的七十年历史——每一个关键节点,都是理解今天的钥匙。
7.1 第一纪元:规则与符号(1956-1990年代)
达特茅斯的预言与期望
1956年夏天,麦卡锡(John McCarthy)、明斯基(Marvin Minsky)等人在达特茅斯学院召开了一次历史性的会议。他们的共同信念是:智能的所有方面,原则上都可以被精确地描述,并用机器来模拟。这就是人工智能领域的诞生时刻。
他们当时的预期乐观得令人咋舌:两个月内,一个由10个人组成的小组,将在理解自然语言、解决代数问题和形成抽象概念方面取得重大进展。
我们都知道后来发生了什么——这个预期至少低估了实现难度70年。
专家系统的辉煌与局限(1970s-1990s)
1970年代到1990年代,"专家系统"(Expert System)是 AI Agent 的主要形式:
专家系统的工作原理:
┌──────────────────────────────────────────────┐
│ 知识库 │
│ 规则1: IF 发烧 AND 咳嗽 THEN 可能感冒 │
│ 规则2: IF 感冒 AND 持续超过7天 THEN 就医建议 │
│ 规则3: IF [1000条类似规则...] │
└──────────────────────────────────────────────┘
↕
┌──────────────────────────────────────────────┐
│ 推理引擎 │
│ • 前向链推理(从事实推结论) │
│ • 后向链推理(从目标推条件) │
└──────────────────────────────────────────────┘
典型代表:
- MYCIN(1976年,Stanford):医疗诊断系统,规则数超过600条,诊断准确率达到65%
- XCON(1982年,DEC):配置计算机系统,每年节省DEC约4000万美元
- Cyc(1984年-至今):试图编码人类所有常识的超大规模知识库,目前包含超过2400万个断言
辉煌成就:在特定有限领域内,表现超越了人类专家
致命局限:
专家系统的"知识获取瓶颈":
- 规则需要专家手工编写
- 规则数量呈指数级爆炸
- 无法处理规则集之外的情况
- 每进入一个新领域,就需要从头重建
这就是著名的"脆性问题"(Brittleness Problem):专家系统在其知识范围内表现极佳,一旦超出边界就完全失效,没有任何"常识"兜底。
第一次 AI 寒冬(1974-1980年,1987-1993年)
两次 AI 寒冬的共同原因是:承诺过多,兑现过少。研究者们屡次宣布"通用 AI 即将到来",政府和企业削减资金投入后,整个领域陷入停滞。
这段历史的教训对今天仍然适用:技术炒作与技术现实之间的落差,是 AI 领域永恒的风险。
7.2 第二纪元:统计与机器学习(1990s-2017年)
范式转变:从手工规则到统计学习
1990年代,机器学习的兴起带来了根本性的范式转变:
范式转变:
旧范式(规则驱动): 人类专家 → 规则 → 系统
新范式(学习驱动): 数据 → 算法 → 模型
关键里程碑:
- 1997年:IBM Deep Blue 击败国际象棋世界冠军卡斯帕罗夫(规则+启发式搜索)
- 2006年:Hinton 提出深度学习,重燃神经网络研究热情
- 2012年:AlexNet 在 ImageNet 竞赛中以巨大优势获胜,深度学习时代正式开始
强化学习 Agent 的崛起(2013-2017年)
这一时期,基于强化学习的 Agent 取得了令人震惊的成就:
| 年份 | 成就 | 意义 |
|---|---|---|
| 2013年 | DeepMind DQN:Atari 游戏 | AI 首次通过自学习在多种游戏中超越人类 |
| 2016年 | AlphaGo 击败李世石 | 人类认为最复杂的棋类游戏被 AI 征服 |
| 2017年 | AlphaZero:从零自学象棋/围棋 | 4小时内超越所有人类训练的引擎 |
| 2019年 | OpenAI Five:Dota2 多智能体 | 复杂多 Agent 协作的里程碑 |
但这类 Agent 有一个共同的局限:极度特化。AlphaGo 不会下象棋,DQN 的 Breakout 技能无法迁移到 Pong——每个 Agent 都是为特定环境从头训练的。
这与我们理想中的"通用 Agent"相距甚远。
7.3 第三纪元:LLM 赋能的 Agent(2017-2023年)
Transformer 的诞生与 LLM 的崛起
2017年,Google 发布 "Attention Is All You Need" 论文,Transformer 架构横空出世。随后的发展速度令所有人目瞪口呆:
Transformer 时代的 LLM 规模扩张:
2018年:GPT-1 1.17亿参数
2019年:GPT-2 15亿参数
2020年:GPT-3 1750亿参数 ← 涌现能力被首次广泛观察
2022年:ChatGPT --(服务发布,全球现象)
2023年:GPT-4 --(参数未公开)
2024年:Llama 3.1 4050亿参数(开源)
2025年:Hermes 4 405亿参数(基于 Llama 3.1 微调)
ReAct:LLM Agent 的基础范式(2022年)
2022年,Yao 等人发表了 ReAct 论文,确立了现代 LLM Agent 的基础执行范式:
ReAct = Reasoning(推理)+ Acting(行动)
# ReAct 范式的伪代码实现
def react_agent(task: str, tools: dict) -> str:
context = f"Task: {task}"
while not is_task_complete(context):
# Thought(推理步骤)
thought = llm.complete(
prompt=f"{context}\nThought: 让我思考下一步...",
)
# Action(行动步骤)
action = llm.complete(
prompt=f"{context}\n{thought}\nAction: ",
)
tool_name, tool_params = parse_action(action)
# Observation(观察步骤)
observation = tools[tool_name](**tool_params)
context += f"\nThought: {thought}\nAction: {action}\nObservation: {observation}"
return extract_final_answer(context)
ReAct 的意义:首次证明了 LLM 可以在推理和行动之间交替,完成需要外部工具的多步骤任务。这是从"语言生成"到"实际行动"的关键跨越。
Auto-GPT:第一次大规模 Agent 实验(2023年3月)
2023年3月,Significant Gravitas 发布了 Auto-GPT。在短短几天内,它成为 GitHub 历史上增长最快的项目之一(6天内超过50,000 Star)。
Auto-GPT 的革命性:
# Auto-GPT 的核心思想(简化版)
class AutoGPT:
def __init__(self, goal: str):
self.goal = goal
self.memory = []
self.tools = [WebSearch(), FileWrite(), CodeExecute(), ...]
def run(self):
while not self.is_goal_achieved():
# 让 GPT-4 自主决定下一步
next_action = gpt4.decide(
goal=self.goal,
memory=self.memory,
available_tools=self.tools
)
result = self.execute(next_action)
self.memory.append(result)
Auto-GPT 的失败与教训:
尽管概念振奋人心,Auto-GPT 在实际使用中暴露了严重问题:
| 问题 | 表现 | 根本原因 |
|---|---|---|
| 目标漂移 | 忘记原始目标,陷入子任务 | 长程推理能力不足 |
| 无限循环 | 重复执行同一步骤无法自拔 | 缺乏元认知能力 |
| 幻觉行动 | 调用不存在的工具或错误参数 | LLM 工具调用能力不足 |
| 成本爆炸 | 完成简单任务花费数十美元 | 无效 API 调用过多 |
| 不可预测性 | 相同任务每次结果差异极大 | 缺乏确定性执行框架 |
Auto-GPT 的历史价值:它证明了"自主 AI Agent"的概念可以用 LLM 实现,但也清晰地划出了当时技术的边界。它更像是一个概念验证,而不是可用产品。
7.4 第四纪元:现代 Agent 架构的收敛(2023-2024年)
从 Auto-GPT 的教训中学习
2023年下半年到2024年,Agent 领域的主要工作是吸取 Auto-GPT 的教训,系统性地解决其暴露的问题:
问题1:目标漂移 → 解决方案:明确任务分解
# 现代 Agent 的任务分解
class ModernAgent:
def decompose_task(self, task: str) -> list[Subtask]:
"""将大任务分解为有明确验证标准的子任务"""
subtasks = self.planner.plan(task)
for subtask in subtasks:
subtask.success_criteria = self.define_criteria(subtask)
return subtasks
def verify_completion(self, subtask: Subtask, result: str) -> bool:
"""明确验证子任务是否真正完成"""
return self.evaluator.check(result, subtask.success_criteria)
问题2:无限循环 → 解决方案:执行步数限制 + 回退机制
def run_with_safeguards(self, task, max_steps=50):
for step in range(max_steps):
action = self.next_action(task)
if self.detect_loop(action):
return self.escalate_to_human(task) # 超出能力范围时上报
result = self.execute(action)
return self.summarize_partial_progress()
问题3:LLM 工具调用不准确 → 解决方案:专用微调
这是 Hermes 系列 LLM 诞生的直接动因。通过 Atropos RL 专门优化工具调用准确性,Hermes 4 在工具调用任务上的错误率比通用 GPT-4 低约40%(内部基准测试)。
Voyager:Skill 系统的先驱(2023年5月)
Voyager(Wang et al., 2023)是 Minecraft 环境中的 LLM Agent,首次在主流论文中引入了 Skill 库的概念:
Voyager 的 Skill 系统工作原理:
─────────────────────────────────────
新任务到来
↓
检索相关 Skill(向量数据库查询)
↓
尝试组合现有 Skill 完成任务
↓
如果失败:生成新代码(新 Skill)
↓
验证新 Skill 是否有效
↓
将有效 Skill 存入 Skill 库
↓
(下次遇到相似任务时直接使用)
Voyager 的核心发现:具备 Skill 积累能力的 Agent,在长期任务中的表现远优于无 Skill 积累的 Agent。这一发现直接影响了 Hermes 的设计。
MemGPT:上下文管理的突破(2023年10月)
Packer 等人发布的 MemGPT 解决了 Agent 长期运行的"失忆"问题:
MemGPT 的分层记忆架构:
┌────────────────────────────────────┐
│ 主上下文(有限) │
│ 当前任务相关信息 + 活跃工作记忆 │
└──────────────────┬─────────────────┘
│ 当接近上限时
↓
┌────────────────────────────────────┐
│ 外部存储(无限) │
│ 归档记忆 + 历史对话 + 知识库 │
└────────────────────────────────────┘
↑
按需检索相关信息
这个双层架构启发了 Hermes 的双重压缩系统设计。
7.5 2024-2026 关键里程碑时间线
2024年1月
──────────
• OpenAI 发布 GPT-4-turbo,128K 上下文窗口
• Anthropic 发布 Claude 3(Haiku/Sonnet/Opus)
• LangChain/LlamaIndex 工具调用规范化
2024年4月
──────────
• Meta 发布 Llama 3(8B/70B)开源
• NousResearch 基于 Llama 3 发布 Hermes 3
• AutoGen 1.0 正式发布,多 Agent 框架规范化
2024年7月
──────────
• Anthropic 发布 MCP(Model Context Protocol)协议
• Claude 3.5 Sonnet 发布,工具调用能力飞跃
• OpenAI 发布 GPT-4o,多模态 Agent 能力提升
2024年9月
──────────
• Meta 发布 Llama 3.1(8B/70B/405B),405B 开源创纪录
• Hermes 4 基于 Llama 3.1 开始训练(Atropos RL)
• MCP 生态工具数量超过200个
2024年11月
───────────
• OpenAI 发布 o1 系列,Chain-of-Thought 能力飞跃
• Google 发布 Gemini 2.0,原生多模态 Agent
• CrewAI 达到10万用户
2025年1月
──────────
• NousResearch 正式发布 Hermes Agent 框架(开源)
• Hermes 4 模型公开发布,Benchmark 表现超越 GPT-4-turbo
• Agent 框架月活用户数行业整体突破100万
2025年3月
──────────
• Anthropic 发布 Claude 3.7 Sonnet(扩展思考模式)
• Hermes Agent v0.5 发布,Skill 库功能稳定
• MCP 成为业界事实标准,工具数量超500个
2025年6月
──────────
• Meta 发布 Llama 4(Scout/Maverick系列)
• Hermes Agent v0.8 发布,多平台支持完善
• OpenAI 发布 Agents SDK,与 Hermes 直接竞争
2026年(预期)
───────────────
• Agent 协作标准化(A2A Protocol 等)
• 长期自主运行 Agent 成为企业标配
• Hermes 4 Plus 发布(专为多步骤任务优化)
7.6 现代 Agent 架构的收敛趋势
历经多年演进,Agent 领域在2024-2025年形成了几个明确的架构共识:
共识一:ReAct 框架是最优执行基础
尽管有各种变体(ReWOO、Reflexion、LATS 等),ReAct 的"思考-行动-观察"三步循环仍然是最稳定的执行基础。
共识二:外部记忆是长期 Agent 的必需品
所有主流框架(Hermes、LangChain、MemGPT)都采用了某种形式的外部记忆。纯粹依赖上下文窗口的 Agent 无法处理长期任务。
共识三:工具调用质量是 Agent 能力的天花板
一个 Agent 再聪明,如果工具调用错误率高,就无法在生产环境使用。这驱动了专用 Agent 模型(Hermes 系列)的兴起。
共识四:学习积累是下一个竞争前沿
当工具调用和基础推理能力趋于平稳后,"Agent 能否从经验中学习"成为了新的分水岭。Hermes 的 Skill 库是目前最成熟的实现。
本章小结
七十年的 AI Agent 演进史,给我们留下了以下核心认知:
- 规则驱动的尽头:专家系统证明了手工规则无法覆盖现实世界的复杂度
- 学习驱动的潜力:统计学习和深度学习开辟了"从数据中自动学习规律"的新路径
- LLM 的范式跃迁:Transformer 和大规模预训练将 Agent 能力从"特化"推向"通用"
- Auto-GPT 的启示:理想与现实的落差催生了严格的工程化设计(Hermes 等现代框架)
- 收敛的架构共识:ReAct + 外部记忆 + 工具调用优化 + 学习积累,成为现代 Agent 的四大支柱
Hermes 站在这七十年历史的肩膀上,试图将"学习积累"这一最后的竞争前沿系统化。理解了这段历史,你就理解了 Hermes 存在的必然性。
思考题
-
专家系统的"脆性问题"与现代 LLM Agent 的"幻觉问题",有什么本质上的相似之处?现代 Agent 框架是否真正解决了脆性问题,还是只是将其转移了形式?
-
Auto-GPT 的失败揭示了一个深刻的问题:目标对齐(Goal Alignment)。如何确保 Agent 在自主执行过程中始终对准原始目标?Hermes 的设计是如何回应这个问题的?
-
从达特茅斯到 GPT-4,AI 研究者多次因过于乐观的预测而陷入寒冬。今天(2025年)的 AI Agent 热潮,是合理的技术预期,还是又一轮过度炒作?你的判断依据是什么?
-
如果你来设计"Agent 演进史的第五纪元"(2027年以后),你认为下一个关键技术突破会在哪个方向?是更强的推理能力、更好的学习机制、还是多 Agent 协作,或者完全未预期的方向?
下一章:NousResearch 与 Hermes 模型谱系——了解构建 Hermes 框架背后的团队,以及 Hermes 1/2/3/4 各版本的完整技术演进