写在前面
如果你是刚接触 AI Agent 的产品经理,可能会被一堆术语搞得晕头转向:LLM、Prompt、RAG、Agent、上下文、记忆、编排……这些词到底是什么意思?它们之间又是什么关系?
这篇文章会用一个你熟悉的场景——智能客服助手——带你从零开始,看看 AI 是如何一步步从"只会聊天"进化到"真正能干活"的。
- LLM 和 Agent 的本质区别
- Agent 的核心组成部分(大脑、双手、神经系统)
- 什么时候该用 Agent,什么时候不该用
- Agent 在真实世界中如何运作
更重要的是,你会建立起一个清晰的认知框架,不再被各种新概念搞晕。
我们先从最简单的聊天机器人开始。
一、只会说话的新员工(LLM)
1.1 什么是 LLM?
LLM(Large Language Model,大语言模型)——它就像一个读过海量书籍的聪明人,能理解你的问题,用自然语言回答你。
假设你是一家电商公司的产品经理,老板让你做一个智能客服。如果你直接接入了 LLM,那它会基于训练时学到的知识乱说,一会儿像百科,一会儿像网友。
所以在它上岗之前,需要给它一个"岗位说明书"。
1.2 Prompt Engineering
直接接入 LLM 的客服系统,会像"一个没培训过的新员工"——读过很多书,但不知道你是谁、你的业务规则是什么。结果是回答风格飘忽不定,甚至可能给出不符合公司政策的建议。
Prompt 的作用,就是给这位"新员工"一本详细的工作手册。
通过角色定义、知识注入和行为约束,Prompt 将通用 LLM 转化为"领域专家":角色定义让模型进入"客服模式",明确"我是谁";知识注入限定回答的知识边界,告诉它"我知道什么";行为约束则规范回答风格,明确"我该怎么做"。
实际效果对比:
| 维度 | 无 Prompt | 有 Prompt |
|---|---|---|
| 身份认知 | 通用助手 | 电商客服专员 |
| 知识边界 | 训练数据截止点 | 公司政策实时更新 |
| 回答风格 | 随机多变 | 统一规范 |
| 风险控制 | 可能违规回答 | 明确约束边界 |
一个典型的电商客服 Prompt:
你是 XX 电商的客服助手。
【公司政策】
- 退货政策: 7天无理由退货,需保持商品完好
- 运费规则: 满99元包邮
- 会员权益: 会员享受95折优惠
【回答规则】
1. 态度友好,称呼用户为"亲"
2. 不确定的信息不要编造,告诉用户"我帮您查一下"
3. 复杂问题转人工客服
4. 请用友好、专业的语气回答用户问题
用户问题: {用户问题}
但 Prompt 也有明显边界。它通常只有几千字的长度限制,无法注入全部公司知识;知识变更需要手动修改,无法实时同步;更重要的是,Prompt 未覆盖的问题,模型仍可能一本正经地胡说八道——这就是 LLM 的幻觉(Hallucination)。
换句话说,Prompt 解决了"角色适配"问题,让 LLM 知道"我是谁、我该怎么做",但无法解决"我知道什么"的实时性问题。当公司产品线不断扩展、政策频繁更新时,靠 Prompt 注入知识的方式就显得力不从心了。
1.3 RAG
LLM 的知识是固定的,Prompt 又有长度限制,你不可能把所有公司信息都塞进去。而且公司的产品信息、订单数据每天都在变化,总不能每天改 Prompt 吧?
RAG(Retrieval-Augmented Generation,检索增强生成)就像给 LLM 配了一个图书管理员。当用户提问时,系统先去公司的知识库里搜索相关信息,然后把搜到的内容和用户问题一起交给 LLM,让它基于这些实时信息来回答。
1. 准备知识库
- 产品说明书
- 退货政策
- FAQ
- 用户手册
2. 用户提问时:
用户: "iPhone 15 怎么退货?"
↓
系统自动搜索知识库
↓
找到相关文档: "iPhone 15 退货政策.pdf"
↓
把文档内容和用户问题一起给 LLM
↓
LLM 基于真实文档回答
3. LLM: "iPhone 15 支持7天无理由退货……"
RAG 的核心价值:
- 知识可以无限扩展
- 更新文档就自动更新知识
- 回答有据可查,不会乱编
- 成本更低(不用重新训练模型)
1.4 Context
我们先不管这个术语,先看它解决了什么问题。
没有 Context 管理时:
用户: "我想买 iPhone 15"
机器人: "好的,iPhone 15 有三个版本……"
用户: "最便宜的多少钱?"
机器人: "请问您想了解哪个产品的价格?"
(已经忘了刚才在聊 iPhone)
简单说,就是管理对话历史,让 LLM"记住"之前说了什么。就像给它一个记事本。
有 Context 管理时:
【对话历史】
用户: "我想买 iPhone 15"
机器人: "好的,iPhone 15 有三个版本……"
用户: "最便宜的多少钱?"
↓
系统把对话历史一起给 LLM:
- 用户之前说想买 iPhone 15
- 现在问最便宜的多少钱
↓
机器人: "iPhone 15 标准版 5999 元起"
本质上,这一步是在帮 Agent 每一次思考,都拿到"当前最重要的信息"。常见策略包括只保留最近 N 轮对话、提取关键信息(比如用户意图、订单号)、对历史对话做摘要。
1.5 阶段性总结
这三个真实场景,暴露了纯 LLM 的三大致命问题:
- 没有限制乱发挥:只会说话没有经过岗位培训的新员工
- 知识过时:只知道训练时学到的"通用知识",不知道公司的真实政策、最新产品、库存情况
- 没有记忆:每次对话都是全新的,不记得上一次说了什么,多轮对话体验很差
通过 Prompt Engineering、RAG 和 Context 三个工具,让 LLM 从"只会背书"变成"会查资料的客服":
- Prompt Engineering:给 LLM 明确的角色和规则
- RAG:让 LLM 查询大量外部知识
- Context:管理多轮对话历史,补充多轮对话的重要内容
你的助手已经是一个"合格的客服"了:知道公司政策、能查资料、能理解上下文、不会乱编。但它还不是 Agent——因为它只能"回答问题",不能"执行操作"。
LLM 和 Agent 真正的分水岭,是它能不能替你做事。
二、能真的帮你办事的员工(Agent)
2.1 Tools
如果用户说"帮我查一下我的订单",这需要真正去调用订单系统的 API,而不只是查知识库。
Tools(工具)——简单说,Tool 就像给 LLM 配了一套工具箱:查订单、退款、修改地址、发优惠券……每个工具都是一个可以执行的功能。
用户:"帮我查一下订单 12345 的物流"
LLM 判断:需要调用"查询物流"工具
系统调用:get_logistics(order_id="12345")
返回结果:商品已发货,预计明天送达
LLM 整理回复:"您的订单已发货,预计明天送达,
快递单号是 SF1234567890。"
Tool 调用的关键技术:Function Calling
这个术语听起来很技术,但本质很简单:LLM 现在能"告诉你它想调用哪个工具"。
LLM 和 Agent 的本质区别:
| 维度 | LLM | Agent |
|---|---|---|
| 能力 | 只能"说" | 能"说"也能"做" |
| 类比 | 顾问 | 员工 |
| 工具 | 无 | 有(API、数据库等) |
| 自主性 | 被动回答 | 主动执行任务 |
2.2 Orchestration
现在 Agent 有"大脑"(LLM)和"双手"(Tools)了,但还缺一样东西:怎么协调它们?
Orchestration(编排)——就是让 Agent 能"像人一样做事":先想想怎么做,再一步步执行。
业界形成了 6 类主流编排模式,从「最可控」到「最灵活」:
- 顺序编排(Chain / Workflow)
- 条件路由(Router)
- Planner → Executor(计划-执行)
- ReAct(思考-行动循环)
- Orchestrator → Workers(调度-工人)
- 多 Agent 协作(Role-based / Debate / Team)
核心模式:ReAct(Reason + Act)
ReAct ——这个模式在学术上叫 ReAct(Reason + Act),但本质上,这一步是在让 Agent "像人一样做事"。
1. Reason(推理): 分析问题,制定计划
2. Act(行动): 执行一个工具
3. Observe(观察): 看执行结果
4. 重复 1-3,直到任务完成
实际案例:
用户:"帮我退货,订单号 12345"
【第 1 轮】
Reason:"我需要先查订单信息,确认能否退货"
Act: 调用 query_order(12345)
Observe: 返回 {"status": "已签收", "can_refund": true}
【第 2 轮】
Reason:"订单可以退货,现在创建退货单"
Act: 调用 create_refund(12345)
Observe: 返回 "退货单已创建,退货单号 R789"
【第 3 轮】
Reason:"任务完成,告诉用户"
Act: 回复用户
Observe: 完成
为什么 ReAct 重要?
- 可解释:每一步的思考过程都看得见
- 灵活:可以根据中间结果动态调整
- 可调试:出错了能看到是哪一步出了问题
2.3 Memory
Memory(记忆)——是让 Agent 记住重要信息,不用每次都重新问。
两种记忆:
| 类型 | 短期记忆 | 长期记忆 |
|---|---|---|
| 范围 | 只记住当前对话 | 跨对话的持久化信息 |
| 生命周期 | 对话结束就清空 | 永久保存 |
| 例子 | 当前订单号 | 用户偏好、历史行为 |
Memory 是 Agent 从"工具"变成"伙伴"的关键——有记忆的 Agent 能理解你,提供个性化服务。
2.4 Context Engineering
每次 Agent 思考时,需要把所有相关信息组装成一个"完整的上下文":
完整的 Context 组装流程
2.5 Agent 的完整架构
现在,我们可以画出 Agent 的完整架构了:
Agent 完整架构图
GPT-4 / Claude / Gemini
负责:理解、推理、决策
现在你的客服助手已经是一个真正的 Agent 了!它能:
- 理解用户意图(大脑)
- 查询知识库(RAG)
- 记住对话历史(Context)
- 记住用户偏好(Memory)
- 规划多步骤任务(Planning)
- 调用工具执行操作(Tools)
从 LLM 到 Agent,本质上是从"只会说"到"能做事"的跨越。这不是技术的堆砌,而是能力的质变。
三、从新手到专家的能力分级
你的 Agent 上线了,效果不错。但老板又问:"别的公司的 Agent 能做什么?我们处于什么水平?"
这就需要了解 Agent 能力分级了。
Google 五级能力模型
Level 0: 核心推理系统
纯 LLM,没有任何工具、记忆或与外部环境的交互
例:可以解释棒球规则,但无法回答"昨晚洋基队比赛结果"
Level 1: 连接型问题解决者
推理引擎 + 外部工具调用,可获取实时数据
例:通过 Google Search API 查询昨晚的比赛结果
Level 2: 战略型问题解决者
多步规划 + 上下文工程,能处理复杂多步骤任务
例:找到两个地址的中点,然后搜索高评分咖啡店
Level 3: 协作型多智能体系统
多个专业化 Agent 协同工作,采用"专家团队"模式
例:项目管理 Agent 委派任务给市场、营销、开发等专业 Agent
Level 4: 自我进化系统
自主识别能力缺口并动态创建新工具或新 Agent
例:自动创建情感分析 Agent 来监控社交媒体情绪
不要一上来就追求高 Level,从用户真实需求出发,选择合适的能力层级。
四、技术演进路径
回到我们的智能客服例子,看看一个 Agent 产品是如何一步步进化的:
MVP(最小可行产品)
回答常见问题,验证需求,快速上线
知识增强
回答公司特定问题,信息实时更新
功能扩展
执行操作(查订单、退款等),真正"干活"
智能升级
处理复杂、多步骤任务,高价值场景
规模化
多 Agent 协作,个性化服务,企业级应用
写在最后
从 LLM 到 Agent,技术在进化,但产品思维不变:
- 用户需要什么?
- 最简单的方案是什么?
- ROI 如何?
不要被术语吓到,也不要盲目追求最新技术。理解每个概念的本质,选择适合你产品的方案,才是好的产品经理。
希望这篇文章能帮你理清 AI Agent 的技术脉络。下次再听到 LLM、RAG、Agent 这些词,你就知道它们在整个拼图中的位置了。