多 Agent 研究系统 - Qianmei's Agent Lab

导语

当所有人还在卷模型参数、拼上下文长度时，Anthropic 已经悄悄换了一条赛道。他们的最新研究显示：多 Agent 系统比单 Agent 性能高出 90.2%。这不是实验室里的玩具，而是 Claude 背后真实的生产系统。

今天，我们揭秘这套"Orchestrator-Subagent"架构是如何工作的。

核心观点

在 AI 领域，架构创新有时候比单纯堆模型能力更重要。

一、为什么"大力出奇迹"行不通了？

想象一下，你请了一个超级聪明的助手，让他帮你完成一个复杂的市场调研任务。你期待他像诸葛亮一样运筹帷幄，但实际情况往往是这样的：

⚠️

注意力稀释（Attention Loss）

你把 100 份财报、50 篇行业报告、30 个网页链接都丢给他。虽然他的"记忆力"（上下文窗口）越来越大了，但信息越多，他越容易"丢三落四"。即使是天才也会被海量信息淹没。

⚠️

串行效率极低

这位助手就像一个非常认真的学生：搜一个词→点开链接→读完→再搜下一个。这种"线性思考"在面对复杂课题时，耗时是以小时计的。

⚠️

脆弱的规划能力

最致命的是，你让他同时负责"定计划"和"搬砖"。结果往往是：他在执行细节时忘了最初的目标，产生"路径漂移"。

这就是 Anthropic 团队在使用单 Agent 做深度调研时遇到的真实困境。他们发现：单纯堆模型能力、扩上下文窗口，已经遇到边际效应递减的瓶颈。

二、性能飙升 90.2% 的秘密

面对这些瓶颈，Anthropic 彻底改变架构思路——从"一个超级大脑"变成"一个高效团队"。

多 Agent 架构比单 Agent 性能提升 90.2%

Anthropic 将这套架构抽象为两个核心角色：

Orchestrator（老板）

大脑，负责战略决策

老板不亲自去读网页、翻文档。它的工作是统筹全局、分配任务，维护一张全局的"项目进度表"。

Sub-agents（员工）

手脚，负责具体执行

每个员工只专注一个极其具体的任务。他们不需要操心全局，只需要把自己那块工作做好、做快、做准。

Orchestrator-Subagent 架构

三、OODA 循环：动态管理而非固定流程

这套架构最精妙的地方在于：它运行的不是预先写好的固定流程，而是 OODA 循环——就像老板管理项目时的自然 workflow：

阶段	动作	老板在做什么
Observe 观察	查看当前项目进度、已收集的资料、员工提交的初步结果	"我已经有了美国市场的数据，欧洲市场还是空白"
Orient 定位	分析信息是否足够回答问题，识别缺口，评估方向是否正确	"欧洲数据缺失是关键瓶颈，需要重点突破"
Decide 决策	决定下一步动作：深入挖掘（Depth）还是拓展广度（Breadth）	"让 2 个员工分别去查德国和法国市场"
Act 执行	将任务分配给专员，调用具体工具获取新数据	创建 2 个子 Agent，分配任务

关键洞察

每一次循环，老板都会根据最新进展重新评估项目状态，调整工作重点。这不是机械执行，而是真正的"动态管理"。

四、典型工作流程

让我们走进 Anthropic 内部的调研系统，看看一次典型的多 Agent 协作是如何展开的：

拆解任务

老板不急着动手，而是先拆解成 5 个子任务：美国市场、中国市场、欧洲日韩、技术对比、趋势分析——再把计划写入笔记本（外部 Memory）防止忘了。

并行派活

瞬间创建 10 个员工，2 人一组并行开工。美国组查 NVIDIA/AMD，中国组查华为/寒武纪……所有人同时推进，而不是排队等。

自我检查

每个员工交活前必须自检：数据完整吗？来源可靠吗？避免把垃圾数据传给老板。

对账审核

老板汇总后，召唤 CitationAgent（对账员）：报告里的每句话，能不能在原文找到证据？创作和审核分离，确保每个结论都有据可查。

多 Agent 协作工作流程

五、Anthropic 踩过的 5 个坑

多 Agent 系统不是银弹，Anthropic 在建设这套系统时遇到了不少挑战：

🚧

坑 1：上下文截断导致"失忆"

每个 subagent 上下文是隔离的，调研任务通常涉及海量数据（如阅读数十份长文档），长周期的迭代会导致对话历史超过 20 万个 token 的限制。一旦发生截断，lead research 会产生"人设漂移"，彻底忘记最初的研究计划。

解法：

外部存储（Memory）： 系统将核心研究计划存储在外部 Memory 中，保证全局目标在任务中保持一致
每轮同步： lead research 在每一轮 OODA 循环开始时，都会从外部存储中读取计划

🚧

坑 2：工具描述不清，AI"瞎用"

多 agent 系统依赖大量工具（搜索、读取、提取）。工具调用失败往往不是因为模型能力弱，而是因为人类编写的工具描述存在歧义。

解法：

AI 写说明书： 开发专门的 tool-testing agent，多次使用某个存在缺陷的工具，在失败中学习，随后重写该工具的描述文档。仅通过优化工具描述，任务处理的整体耗时就降低了 40%
交错思考： 在提示词中强制模型在调用工具前后进行显式思考

🚧

坑 3：路径随机，评估困难

多 agent 系统的路径是高度随机且发散的。同样的查询，第二次运行可能走完全不同的搜索路径，这让确定性的评估指标变得极难衡量。

解法：

模型辅助评估： 引入"裁判模型"，使用更高阶的模型作为自动评分员
小样本深度调研： 选取 20 个 最具代表性的真实案例进行测试，可揪出架构设计中 80% 的系统性缺陷

🚧

坑 4：成本指数级膨胀

多 Agent 系统可能为了简单问题盲目开启几十个 subAgent，导致 token 消耗呈指数级增长。

解法：

在提示词中嵌入规模自适应规则：

简单事实查询：1 个 subAgent，3-10 次工具调用
直接对比任务：2-4 个 subAgent，各 10-15 次调用
复杂研究：10+ 个 subAgent，明确划分职责

🚧

坑 5：信息碎片化，张冠李戴

多 Agent 并行处理后，信息极其碎片化，容易出现"结论与原始来源无法对应"的问题。

解法：

前文提到的 CitationAgent（对账员），专职负责引用核查，确保所有主张都有据可查。

六、什么时候该用多 Agent？三金标准

不是所有场景都值得上多 Agent。Anthropic 给出了三个关键判定点：

✓

标准 1：任务可并行化

例如：你的任务可以拆成"搜日本市场"、"搜欧洲市场"这种互不干扰的子块。

✓

标准 2：超越单次上下文

任务涉及的总信息量远超 20 万 token，单模型处理不过来时。

✓

标准 3：需要动态闭环

任务不是一锤子买卖，需要根据"第一步搜到的结果"来决定"第二步搜什么"。

七、总结：从"大力出奇迹"到"巧劲破千斤"

Anthropic 的多 Agent 研究给我们最大的启发是：在 AI 领域，架构创新有时候比单纯堆模型能力更重要。

1 不要期待一个超级大脑做所有事

2 让专业的人做专业的事

3 用协作代替单打独斗

写在最后

多 Agent 系统带来了更高的复杂度、更多的 token 消耗（约 15 倍于普通对话）、更复杂的调试难度。但对于那些高价值、可并行、需动态调整的任务，它可能是目前最优的解法。

如果你正在构建 AI Agent 系统，不妨问问自己：我是在招一个"万能超人"，还是在搭建一个"高效团队"？

答案可能决定了你的系统上限。

参考来源

How we built our multi-agent research system

Anthropic 官方技术博客

多 Agent 研究系统：性能飙升 90.2% 的秘密

导语

一、为什么"大力出奇迹"行不通了？

注意力稀释（Attention Loss）

串行效率极低

脆弱的规划能力

二、性能飙升 90.2% 的秘密

Orchestrator（老板）

Sub-agents（员工）

三、OODA 循环：动态管理而非固定流程

四、典型工作流程

拆解任务

并行派活

自我检查

对账审核

五、Anthropic 踩过的 5 个坑

坑 1：上下文截断导致"失忆"

坑 2：工具描述不清，AI"瞎用"

坑 3：路径随机，评估困难

坑 4：成本指数级膨胀

坑 5：信息碎片化，张冠李戴

六、什么时候该用多 Agent？三金标准

标准 1：任务可并行化

标准 2：超越单次上下文

标准 3：需要动态闭环

七、总结：从"大力出奇迹"到"巧劲破千斤"