从 LLM 到 Agent：建立 AI Agent 认知框架

写在前面

如果你是刚接触 AI Agent 的产品经理，可能会被一堆术语搞得晕头转向：LLM、Prompt、RAG、Agent、上下文、记忆、编排……这些词到底是什么意思？它们之间又是什么关系？

这篇文章会用一个你熟悉的场景——智能客服助手——带你从零开始，看看 AI 是如何一步步从"只会聊天"进化到"真正能干活"的。

读完这篇文章，你会清楚地理解：

LLM 和 Agent 的本质区别
Agent 的核心组成部分（大脑、双手、神经系统）
什么时候该用 Agent，什么时候不该用
Agent 在真实世界中如何运作

更重要的是，你会建立起一个清晰的认知框架，不再被各种新概念搞晕。

我们先从最简单的聊天机器人开始。

一、只会说话的新员工（LLM）

1.1 什么是 LLM？

LLM（Large Language Model，大语言模型）——它就像一个读过海量书籍的聪明人，能理解你的问题，用自然语言回答你。

假设你是一家电商公司的产品经理，老板让你做一个智能客服。如果你直接接入了 LLM，那它会基于训练时学到的知识乱说，一会儿像百科，一会儿像网友。

所以在它上岗之前，需要给它一个"岗位说明书"。

1.2 Prompt Engineering

直接接入 LLM 的客服系统，会像"一个没培训过的新员工"——读过很多书，但不知道你是谁、你的业务规则是什么。结果是回答风格飘忽不定，甚至可能给出不符合公司政策的建议。

Prompt 的作用，就是给这位"新员工"一本详细的工作手册。

通过角色定义、知识注入和行为约束，Prompt 将通用 LLM 转化为"领域专家"：角色定义让模型进入"客服模式"，明确"我是谁"；知识注入限定回答的知识边界，告诉它"我知道什么"；行为约束则规范回答风格，明确"我该怎么做"。

实际效果对比：

维度	无 Prompt	有 Prompt
身份认知	通用助手	电商客服专员
知识边界	训练数据截止点	公司政策实时更新
回答风格	随机多变	统一规范
风险控制	可能违规回答	明确约束边界

一个典型的电商客服 Prompt：

prompt.txt

                            你是 XX 电商的客服助手。

【公司政策】
- 退货政策: 7天无理由退货,需保持商品完好
- 运费规则: 满99元包邮
- 会员权益: 会员享受95折优惠

【回答规则】
1. 态度友好,称呼用户为"亲"
2. 不确定的信息不要编造,告诉用户"我帮您查一下"
3. 复杂问题转人工客服
4. 请用友好、专业的语气回答用户问题

用户问题: {用户问题}
                        

但 Prompt 也有明显边界。它通常只有几千字的长度限制，无法注入全部公司知识；知识变更需要手动修改，无法实时同步；更重要的是，Prompt 未覆盖的问题，模型仍可能一本正经地胡说八道——这就是 LLM 的幻觉（Hallucination）。

换句话说，Prompt 解决了"角色适配"问题，让 LLM 知道"我是谁、我该怎么做"，但无法解决"我知道什么"的实时性问题。当公司产品线不断扩展、政策频繁更新时，靠 Prompt 注入知识的方式就显得力不从心了。

1.3 RAG

LLM 的知识是固定的，Prompt 又有长度限制，你不可能把所有公司信息都塞进去。而且公司的产品信息、订单数据每天都在变化，总不能每天改 Prompt 吧？

RAG（Retrieval-Augmented Generation，检索增强生成）就像给 LLM 配了一个图书管理员。当用户提问时，系统先去公司的知识库里搜索相关信息，然后把搜到的内容和用户问题一起交给 LLM，让它基于这些实时信息来回答。

RAG Workflow

                            1. 准备知识库
   - 产品说明书
   - 退货政策
   - FAQ
   - 用户手册

2. 用户提问时:
   用户: "iPhone 15 怎么退货?"
   ↓
   系统自动搜索知识库
   ↓
   找到相关文档: "iPhone 15 退货政策.pdf"
   ↓
   把文档内容和用户问题一起给 LLM
   ↓
   LLM 基于真实文档回答

3. LLM: "iPhone 15 支持7天无理由退货……"
                        

RAG 的核心价值：

知识可以无限扩展
更新文档就自动更新知识
回答有据可查，不会乱编
成本更低（不用重新训练模型）

1.4 Context

我们先不管这个术语，先看它解决了什么问题。

没有 Context 管理时：

对话示例

                            用户: "我想买 iPhone 15"
机器人: "好的,iPhone 15 有三个版本……"

用户: "最便宜的多少钱?"
机器人: "请问您想了解哪个产品的价格?"
(已经忘了刚才在聊 iPhone)
                        

简单说，就是管理对话历史，让 LLM"记住"之前说了什么。就像给它一个记事本。

有 Context 管理时：

有 Context 管理

                            【对话历史】
用户: "我想买 iPhone 15"
机器人: "好的,iPhone 15 有三个版本……"

用户: "最便宜的多少钱?"
↓
系统把对话历史一起给 LLM:
  - 用户之前说想买 iPhone 15
  - 现在问最便宜的多少钱
↓
机器人: "iPhone 15 标准版 5999 元起"
                        

本质上，这一步是在帮 Agent 每一次思考，都拿到"当前最重要的信息"。常见策略包括只保留最近 N 轮对话、提取关键信息（比如用户意图、订单号）、对历史对话做摘要。

1.5 阶段性总结

这三个真实场景，暴露了纯 LLM 的三大致命问题：

没有限制乱发挥：只会说话没有经过岗位培训的新员工
知识过时：只知道训练时学到的"通用知识"，不知道公司的真实政策、最新产品、库存情况
没有记忆：每次对话都是全新的，不记得上一次说了什么，多轮对话体验很差

通过 Prompt Engineering、RAG 和 Context 三个工具，让 LLM 从"只会背书"变成"会查资料的客服"：

Prompt Engineering：给 LLM 明确的角色和规则
RAG：让 LLM 查询大量外部知识
Context：管理多轮对话历史，补充多轮对话的重要内容

你的助手已经是一个"合格的客服"了：知道公司政策、能查资料、能理解上下文、不会乱编。但它还不是 Agent——因为它只能"回答问题"，不能"执行操作"。

LLM 和 Agent 真正的分水岭，是它能不能替你做事。

二、能真的帮你办事的员工（Agent）

2.1 Tools

如果用户说"帮我查一下我的订单"，这需要真正去调用订单系统的 API，而不只是查知识库。

Tools（工具）——简单说，Tool 就像给 LLM 配了一套工具箱：查订单、退款、修改地址、发优惠券……每个工具都是一个可以执行的功能。

Tool Calling

                            用户："帮我查一下订单 12345 的物流"

LLM 判断：需要调用"查询物流"工具

系统调用：get_logistics(order_id="12345")

返回结果：商品已发货，预计明天送达

LLM 整理回复："您的订单已发货，预计明天送达，
快递单号是 SF1234567890。"

Tool 调用的关键技术：Function Calling

这个术语听起来很技术，但本质很简单：LLM 现在能"告诉你它想调用哪个工具"。

LLM 和 Agent 的本质区别：

维度	LLM	Agent
能力	只能"说"	能"说"也能"做"
类比	顾问	员工
工具	无	有（API、数据库等）
自主性	被动回答	主动执行任务

2.2 Orchestration

现在 Agent 有"大脑"（LLM）和"双手"（Tools）了，但还缺一样东西：怎么协调它们？

Orchestration（编排）——就是让 Agent 能"像人一样做事"：先想想怎么做，再一步步执行。

业界形成了 6 类主流编排模式，从「最可控」到「最灵活」：

顺序编排（Chain / Workflow）
条件路由（Router）
Planner → Executor（计划-执行）
ReAct（思考-行动循环）
Orchestrator → Workers（调度-工人）
多 Agent 协作（Role-based / Debate / Team）

核心模式：ReAct（Reason + Act）

ReAct ——这个模式在学术上叫 ReAct(Reason + Act)，但本质上，这一步是在让 Agent "像人一样做事"。

ReAct Workflow

                            1. Reason(推理): 分析问题,制定计划
2. Act(行动): 执行一个工具
3. Observe(观察): 看执行结果
4. 重复 1-3,直到任务完成
                        

实际案例：

退货流程示例

                            用户:"帮我退货,订单号 12345"

【第 1 轮】
Reason:"我需要先查订单信息,确认能否退货"
Act: 调用 query_order(12345)
Observe: 返回 {"status": "已签收", "can_refund": true}

【第 2 轮】
Reason:"订单可以退货,现在创建退货单"
Act: 调用 create_refund(12345)
Observe: 返回 "退货单已创建,退货单号 R789"

【第 3 轮】
Reason:"任务完成,告诉用户"
Act: 回复用户
Observe: 完成
                        

为什么 ReAct 重要？

可解释：每一步的思考过程都看得见
灵活：可以根据中间结果动态调整
可调试：出错了能看到是哪一步出了问题

2.3 Memory

Memory（记忆）——是让 Agent 记住重要信息，不用每次都重新问。

两种记忆：

类型	短期记忆	长期记忆
范围	只记住当前对话	跨对话的持久化信息
生命周期	对话结束就清空	永久保存
例子	当前订单号	用户偏好、历史行为

Memory 的关键价值

Memory 是 Agent 从"工具"变成"伙伴"的关键——有记忆的 Agent 能理解你，提供个性化服务。

2.4 Context Engineering

每次 Agent 思考时，需要把所有相关信息组装成一个"完整的上下文"：

完整的 Context 组装流程

1. System Prompt "你是电商客服"

2. Long-term Memory "用户是会员，喜欢 Apple"

3. RAG 检索结果 "iPhone 15 产品说明"

4. 对话历史最近 10 轮对话

5. 工具返回结果 "订单 12345 的信息"

6. 用户当前问题 "帮我退货"

喂给 LLM 进行推理

2.5 Agent 的完整架构

现在，我们可以画出 Agent 的完整架构了：

Agent 完整架构图

🧠 Model（大脑）

GPT-4 / Claude / Gemini

负责：理解、推理、决策

↕

🔄 Orchestration（神经系统）

📋 Planning

ReAct 框架

任务分解

💾 Memory

Session（短期）

Memory（长期）

📦 Context

动态组装信息

长度管理

↕

🛠️ Tools（双手）

查询订单 API 创建退货单 API RAG 知识库发优惠券 API ...

现在你的客服助手已经是一个真正的 Agent 了！它能：

理解用户意图（大脑）
查询知识库（RAG）
记住对话历史（Context）
记住用户偏好（Memory）
规划多步骤任务（Planning）
调用工具执行操作（Tools）

核心洞察

从 LLM 到 Agent，本质上是从"只会说"到"能做事"的跨越。这不是技术的堆砌，而是能力的质变。

三、从新手到专家的能力分级

你的 Agent 上线了，效果不错。但老板又问："别的公司的 Agent 能做什么？我们处于什么水平？"

这就需要了解 Agent 能力分级了。

Google 五级能力模型

🌱

Level 0: 核心推理系统

纯 LLM，没有任何工具、记忆或与外部环境的交互

例：可以解释棒球规则，但无法回答"昨晚洋基队比赛结果"

🔌

Level 1: 连接型问题解决者

推理引擎 + 外部工具调用，可获取实时数据

例：通过 Google Search API 查询昨晚的比赛结果

🧭

Level 2: 战略型问题解决者

多步规划 + 上下文工程，能处理复杂多步骤任务

例：找到两个地址的中点，然后搜索高评分咖啡店

👥

Level 3: 协作型多智能体系统

多个专业化 Agent 协同工作，采用"专家团队"模式

例：项目管理 Agent 委派任务给市场、营销、开发等专业 Agent

🚀

Level 4: 自我进化系统

自主识别能力缺口并动态创建新工具或新 Agent

例：自动创建情感分析 Agent 来监控社交媒体情绪

💡 建议

不要一上来就追求高 Level，从用户真实需求出发，选择合适的能力层级。

四、技术演进路径

回到我们的智能客服例子，看看一个 Agent 产品是如何一步步进化的：

MVP（最小可行产品）

LLM + Prompt 成本：低

回答常见问题，验证需求，快速上线

知识增强

+ RAG 成本：中

回答公司特定问题，信息实时更新

功能扩展

+ Tool 成本：中高

执行操作（查订单、退款等），真正"干活"

智能升级

+ Agent（自主规划）成本：高

处理复杂、多步骤任务，高价值场景

规模化

+ Agent 编排 + 记忆成本：很高

多 Agent 协作，个性化服务，企业级应用

写在最后

从 LLM 到 Agent，技术在进化，但产品思维不变：

用户需要什么？
最简单的方案是什么？
ROI 如何？

不要被术语吓到，也不要盲目追求最新技术。理解每个概念的本质，选择适合你产品的方案，才是好的产品经理。

希望这篇文章能帮你理清 AI Agent 的技术脉络。下次再听到 LLM、RAG、Agent 这些词，你就知道它们在整个拼图中的位置了。