返回

产品知识

多 Agent 研究系统:性能飙升 90.2% 的秘密

Anthropic 实战总结:从"一个超级大脑"到"一个高效团队"的架构演进

3026年3月5日 18 min read

导语

当所有人还在卷模型参数、拼上下文长度时,Anthropic 已经悄悄换了一条赛道。他们的最新研究显示:多 Agent 系统比单 Agent 性能高出 90.2%。这不是实验室里的玩具,而是 Claude 背后真实的生产系统。

今天,我们揭秘这套"Orchestrator-Subagent"架构是如何工作的。

核心观点

在 AI 领域,架构创新有时候比单纯堆模型能力更重要

一、为什么"大力出奇迹"行不通了?

想象一下,你请了一个超级聪明的助手,让他帮你完成一个复杂的市场调研任务。你期待他像诸葛亮一样运筹帷幄,但实际情况往往是这样的:

⚠️

注意力稀释(Attention Loss)

你把 100 份财报、50 篇行业报告、30 个网页链接都丢给他。虽然他的"记忆力"(上下文窗口)越来越大了,但信息越多,他越容易"丢三落四"。即使是天才也会被海量信息淹没。

⚠️

串行效率极低

这位助手就像一个非常认真的学生:搜一个词→点开链接→读完→再搜下一个。这种"线性思考"在面对复杂课题时,耗时是以小时计的。

⚠️

脆弱的规划能力

最致命的是,你让他同时负责"定计划"和"搬砖"。结果往往是:他在执行细节时忘了最初的目标,产生"路径漂移"。

这就是 Anthropic 团队在使用单 Agent 做深度调研时遇到的真实困境。他们发现:单纯堆模型能力、扩上下文窗口,已经遇到边际效应递减的瓶颈。

二、性能飙升 90.2% 的秘密

面对这些瓶颈,Anthropic 彻底改变架构思路——从"一个超级大脑"变成"一个高效团队"。

多 Agent 架构比单 Agent 性能提升 90.2%

Anthropic 将这套架构抽象为两个核心角色:

Orchestrator(老板)

大脑,负责战略决策

老板不亲自去读网页、翻文档。它的工作是统筹全局、分配任务,维护一张全局的"项目进度表"。

Sub-agents(员工)

手脚,负责具体执行

每个员工只专注一个极其具体的任务。他们不需要操心全局,只需要把自己那块工作做好、做快、做准。

多 Agent 架构图

Orchestrator-Subagent 架构

三、OODA 循环:动态管理而非固定流程

这套架构最精妙的地方在于:它运行的不是预先写好的固定流程,而是 OODA 循环——就像老板管理项目时的自然 workflow:

阶段 动作 老板在做什么
Observe 观察 查看当前项目进度、已收集的资料、员工提交的初步结果 "我已经有了美国市场的数据,欧洲市场还是空白"
Orient 定位 分析信息是否足够回答问题,识别缺口,评估方向是否正确 "欧洲数据缺失是关键瓶颈,需要重点突破"
Decide 决策 决定下一步动作:深入挖掘(Depth)还是拓展广度(Breadth) "让 2 个员工分别去查德国和法国市场"
Act 执行 将任务分配给专员,调用具体工具获取新数据 创建 2 个子 Agent,分配任务
关键洞察

每一次循环,老板都会根据最新进展重新评估项目状态,调整工作重点。这不是机械执行,而是真正的"动态管理"

四、典型工作流程

让我们走进 Anthropic 内部的调研系统,看看一次典型的多 Agent 协作是如何展开的:

1

拆解任务

老板不急着动手,而是先拆解成 5 个子任务:美国市场、中国市场、欧洲日韩、技术对比、趋势分析——再把计划写入笔记本(外部 Memory)防止忘了

2

并行派活

瞬间创建 10 个员工,2 人一组并行开工。美国组查 NVIDIA/AMD,中国组查华为/寒武纪……所有人同时推进,而不是排队等。

3

自我检查

每个员工交活前必须自检:数据完整吗?来源可靠吗?避免把垃圾数据传给老板。

4

对账审核

老板汇总后,召唤 CitationAgent(对账员):报告里的每句话,能不能在原文找到证据?创作和审核分离,确保每个结论都有据可查

工作流程图

多 Agent 协作工作流程

五、Anthropic 踩过的 5 个坑

多 Agent 系统不是银弹,Anthropic 在建设这套系统时遇到了不少挑战:

🚧

坑 1:上下文截断导致"失忆"

每个 subagent 上下文是隔离的,调研任务通常涉及海量数据(如阅读数十份长文档),长周期的迭代会导致对话历史超过 20 万个 token 的限制。一旦发生截断,lead research 会产生"人设漂移",彻底忘记最初的研究计划。

解法:

  • 外部存储(Memory): 系统将核心研究计划存储在外部 Memory 中,保证全局目标在任务中保持一致
  • 每轮同步: lead research 在每一轮 OODA 循环开始时,都会从外部存储中读取计划
🚧

坑 2:工具描述不清,AI"瞎用"

多 agent 系统依赖大量工具(搜索、读取、提取)。工具调用失败往往不是因为模型能力弱,而是因为人类编写的工具描述存在歧义。

解法:

  • AI 写说明书: 开发专门的 tool-testing agent,多次使用某个存在缺陷的工具,在失败中学习,随后重写该工具的描述文档。仅通过优化工具描述,任务处理的整体耗时就降低了 40%
  • 交错思考: 在提示词中强制模型在调用工具前后进行显式思考
🚧

坑 3:路径随机,评估困难

多 agent 系统的路径是高度随机且发散的。同样的查询,第二次运行可能走完全不同的搜索路径,这让确定性的评估指标变得极难衡量。

解法:

  • 模型辅助评估: 引入"裁判模型",使用更高阶的模型作为自动评分员
  • 小样本深度调研: 选取 20 个 最具代表性的真实案例进行测试,可揪出架构设计中 80% 的系统性缺陷
🚧

坑 4:成本指数级膨胀

多 Agent 系统可能为了简单问题盲目开启几十个 subAgent,导致 token 消耗呈指数级增长。

解法:

在提示词中嵌入规模自适应规则

  • 简单事实查询:1 个 subAgent,3-10 次工具调用
  • 直接对比任务:2-4 个 subAgent,各 10-15 次调用
  • 复杂研究:10+ 个 subAgent,明确划分职责
🚧

坑 5:信息碎片化,张冠李戴

多 Agent 并行处理后,信息极其碎片化,容易出现"结论与原始来源无法对应"的问题。

解法:

前文提到的 CitationAgent(对账员),专职负责引用核查,确保所有主张都有据可查。

六、什么时候该用多 Agent?三金标准

不是所有场景都值得上多 Agent。Anthropic 给出了三个关键判定点:

标准 1:任务可并行化

例如:你的任务可以拆成"搜日本市场"、"搜欧洲市场"这种互不干扰的子块

标准 2:超越单次上下文

任务涉及的总信息量远超 20 万 token,单模型处理不过来时。

标准 3:需要动态闭环

任务不是一锤子买卖,需要根据"第一步搜到的结果"来决定"第二步搜什么"

七、总结:从"大力出奇迹"到"巧劲破千斤"

Anthropic 的多 Agent 研究给我们最大的启发是:在 AI 领域,架构创新有时候比单纯堆模型能力更重要。

1 不要期待一个超级大脑做所有事
2 让专业的人做专业的事
3 用协作代替单打独斗
写在最后

多 Agent 系统带来了更高的复杂度、更多的 token 消耗(约 15 倍于普通对话)、更复杂的调试难度。但对于那些高价值、可并行、需动态调整的任务,它可能是目前最优的解法。

如果你正在构建 AI Agent 系统,不妨问问自己:我是在招一个"万能超人",还是在搭建一个"高效团队"?

答案可能决定了你的系统上限。

参考来源
1

How we built our multi-agent research system

Anthropic 官方技术博客