BonusChapter:40条AI Agent构建者的认知浓缩
BonusChapter:40条AI Agent构建者的认知浓缩
这40条是从前12章提炼的最高密度认知。每条都是一个可以直接应用的决策框架或行动准则。
第一组:架构与设计(10条)
01. Agent = LLM + 工具 + 记忆 + 规划 这四个组件缺一不可。只有LLM是聊天机器人,加上工具才是Agent,加上记忆才能持续学习,加上规划才能处理复杂任务。
02. 从最简单的架构开始 先用一个ReAct Agent解决80%的问题,再考虑多Agent。多Agent系统的协调成本往往超过其收益。
03. 工具设计是Agent成功的关键,比模型选择更重要 一个精心设计的工具(清晰描述+合理参数+有意义的返回值)能让gpt-4o-mini的表现超过设计糟糕工具时的o1。
04. 上下文窗口是最贵的资源 每多一个token进入上下文,成本增加。System Prompt每减少100字,规模化后省的钱不可小觑。用摘要压缩替代无限追加历史。
05. 状态管理是多步骤Agent的核心挑战 Agent失败通常不是因为LLM不够聪明,而是因为状态丢失。用LangGraph显式管理状态,比隐式依赖消息历史可靠得多。
06. 把工作流中的每个决策节点都显式化 隐藏在LLM内部的决策无法测试、无法监控、无法调试。把"是否需要搜索"、"是否完成"等决策变成代码中可见的判断。
07. Fallback机制是生产级Agent的必需品 工具调用失败 → 重试。重试失败 → 换工具。换工具失败 → 优雅降级给用户。每个工具都要有fallback路径。
08. 并行化工具调用能减少50-70%的延迟 当多个工具调用相互独立时(如同时搜索多个关键词),用asyncio并发执行,而不是顺序等待。
09. Human-in-the-Loop不是妥协,是最佳实践 对于高风险操作(付款/删除/发送),把人工确认节点设计进工作流中。用户信任来自可控性。
10. Agent的复杂度应该从问题复杂度中生长,而不是从技术偏好中 不要因为学了CrewAI就把所有Agent都做成多Agent系统。简单问题用简单方案。
第二组:工具与记忆(10条)
11. 工具函数的描述是给LLM的API文档 LLM通过函数的docstring决定是否调用它、如何调用它。一个好的docstring包含:用途、参数含义、返回格式、适用场景和不适用场景。
12. 不要让Agent自己决定是否用危险工具 对于删除/写入/发送类操作,在工具层面加权限检查,不要期待LLM记住"这个工具很危险"。
13. 工作记忆 ≠ 长期记忆 上下文窗口里的内容是工作记忆,对话结束就消失。真正有价值的信息需要主动提取、存储到数据库,才能在下次对话中被调用。
14. 什么时候用向量数据库,什么时候用关系数据库 “找相似的文档/知识” → 向量数据库。“查某用户某天的操作记录” → 关系数据库。两者互补,不是替代关系。
15. RAG的质量上限是数据质量 Chunking策略和Embedding模型的差异最多带来20%的提升。数据本身的质量(是否准确、是否完整)决定了80%的上限。
16. 混合搜索(向量+关键词)几乎总是优于纯向量搜索 语义相似的文档不一定包含用户想要的关键词,关键词精确匹配的文档也不一定语义最相关。两者结合的RRF融合策略,通常比单一方法提升10–20%。
17. 记忆写入策略:会话结束时总结写入,而非实时写入 每条消息都写入数据库成本高、噪声多。在会话结束时用LLM提炼关键事实后批量写入,是成本和质量的最优平衡。
18. 给Agent一个"备忘录工具" 除了长期记忆数据库,给Agent一个当前任务的临时笔记工具(write_note/read_notes),让它在中间步骤记录关键发现,避免信息在长推理链中丢失。
19. Embedding模型的选择影响多语言场景 OpenAI text-embedding-3-small在英文上表现优秀,但中文场景建议测试BAAI/bge-m3(开源免费,专为多语言优化)。
20. 向量数据库不需要从一开始就用 前1000个文档用Chroma本地存储即可。超过100万文档再考虑Pinecone/Supabase pgvector。过早优化是浪费。
第三组:评估与安全(10条)
21. 没有测试集就没有信心 "感觉Agent表现不错"和"在20个测试用例上通过率90%"是两种完全不同的信心水平。在优化之前先建立基准测试。
22. LLM-as-a-Judge是目前最实用的自动评估方案 用强模型(GPT-4o)评估弱模型(GPT-4o-mini)的输出,比人工评估快100倍,比规则评估更灵活。偏差是存在的,但对于相对比较足够用。
23. 幻觉检测是RAG Agent的必需品 LLM会在文档支持不足时"创造"信息。用faithfulness评估每个回答的主张是否有文档支撑,设置阈值自动拒绝幻觉率高的回答。
24. Prompt注入不只是理论威胁 任何处理外部输入(用户上传的文档/搜索结果/网页内容)的Agent都是攻击目标。使用XML标签隔离外部内容,用双层检测(规则+LLM)过滤注入。
25. 最小权限原则:Agent不应该拥有比完成任务更多的权限 一个客服Agent不需要删除数据库的权限。在工具层面用枚举明确每个工具的权限级别,拒绝越权访问。
26. 代码执行必须在沙箱中 让LLM生成的代码在没有隔离的环境中运行,是你犯过的最危险的错误。E2B云沙箱或Docker容器是最低要求。
27. 为Agent设置预算和时间上限 一个没有上限的Agent在成本和时间上都可能失控。每个用户每天的最大LLM调用费用和每次任务的最大执行时间,在代码层面硬编码。
28. 定期用对抗性测试集测试你的安全措施 安全不是一次性的,攻击者会不断进化。每次有安全相关更新,都要重新跑对抗性测试集(包含已知的注入模式和边界情况)。
29. 审计日志是生产Agent的必需品,不是可选项 当有用户投诉"Agent做了奇怪的事",没有日志你什么都查不了。记录每次工具调用的时间/参数/结果,存储至少30天。
30. 评估驱动开发:每次修改都运行基准测试 LLM系统有复杂的涌现行为,修改一处提示词可能意外影响另一个场景。在CI/CD中加入基准测试,防止性能退化。
第四组:商业化与产品(10条)
31. 先找到愿意付钱的人,再建产品 用Typeform收集有意向的用户,收到10个人付款承诺再开始构建。比建完才发现没人要便宜得多。
32. 定价要基于价值而非成本 如果你的Agent帮用户省了10小时/月($200价值),定价$29-49是完全合理的,即使你的成本只有$1。成本定价是自杀式定价。
33. 最危险的产品决策是"先免费" 免费用户很少转化为付费用户。从第一天就设置付费门槛,帮你找到真正的用户,也帮你验证价值主张。
34. 垂直化带来的溢价是技术能力的3-5倍 一个通用的AI助手SaaS难以超过$29/月。一个专注于法律合同审查的Agent可以收$299/月。同样的技术,垂直化让你可以定更高的价格。
35. Build in Public是最低成本的营销策略 公开记录你构建Agent产品的过程(用Twitter/X/LinkedIn),不需要广告预算,能有机聚集目标用户,并收获早期粉丝。
36. 前10个付费用户是最宝贵的学习资产 他们告诉你为什么付钱,用了什么功能,还缺什么。比任何用户调研更有价值。投入时间一对一访谈他们。
37. 模型路由是规模化后最重要的成本控制 用gpt-4o-mini处理简单查询(80%),用gpt-4o处理复杂任务(20%),平均成本可以降低60-70%。先上线验证,再优化成本路由。
38. API产品比SaaS产品先到达正现金流 做API给开发者用,初始开发量更少,没有前端,计费简单(按调用次数)。验证市场需求后再考虑SaaS前端。
39. 护城河不是技术,是数据飞轮 你的Agent用得越多,收集的用户反馈/评估数据越多,模型越准,产品越好,更多用户使用。这才是真正的护城河,技术本身可以被复制。
40. 最危险的认知误区:以为技术是最难的部分 技术是最容易解决的部分。找到真实用户的真实痛点、把他们留住、让他们给你钱——这才是创业中最难的三件事。Agent技术帮你加速,但不能替代你做这三件事。
核心框架速查
Agent评估清单
- [ ] 有基准测试集(至少20个问题 + 标准答案)
- [ ] 有幻觉检测(faithfulness评估)
- [ ] 有工具使用效率评估
- [ ] 有安全测试(Prompt注入测试集)
- [ ] CI/CD中有自动化评估
生产部署清单
- [ ] 所有工具调用有权限控制
- [ ] 代码执行在沙箱中
- [ ] 有速率限制(每用户)
- [ ] 有成本追踪(每次调用记录token和费用)
- [ ] 有审计日志(保存30天+)
- [ ] 有熔断机制(工具连续失败时降级)
商业化起步清单
- [ ] 单位经济模型算清楚(成本/用户)
- [ ] 定价基于价值主张(不是成本乘以倍数)
- [ ] 有三档套餐(Starter/Pro/Enterprise)
- [ ] 有前10个目标客户名单
- [ ] 有产品页面(能接受支付)
- [ ] 有用户访谈计划(每周2次)
推荐技术栈(2025-2026)
| 层次 | 推荐选择 | 备注 |
|---|---|---|
| LLM | GPT-4o + GPT-4o-mini路由 | 最稳定,生态最好 |
| 框架 | LangGraph(生产)/ CrewAI(原型) | 按需求选 |
| 向量DB | Chroma(<100万文档)/ pgvector(大规模) | 不要过早优化 |
| 代码执行 | E2B(云端)/ Docker(本地) | 必须沙箱化 |
| 评估 | LangSmith + 自建基准测试 | 缺一不可 |
| 部署 | FastAPI + Railway/Render | 小规模低成本 |
| 监控 | LangSmith Traces + Sentry | 标配 |