BonusChapter：40条Prompt工程师的认知浓缩

这是本书的浓缩版。如果你只能记住40件事，记住这些。每一条都是在真实系统构建中提炼的认知，不是理论，是规律。

第一组：Prompt设计原则（10条）

01. Prompt是与概率分布对话，不是与人对话。 每个输出都是一个采样结果，温度控制的是采样的随机性。理解这一点，你就不会"责怪"LLM——你只能调整分布。

02. 越具体越好，越长不一定越好。 "写一篇关于AI的文章"比"写2000字、面向初学者、用3个真实案例解释AI如何影响零售行业"差100倍。精确的约束是Prompt的骨架。

03. System Prompt是规则层，User Prompt是执行层。 把不变的角色、约束、输出格式放进System；把变化的输入和问题放进User。不要把所有东西塞进一个Prompt。

04. 示例胜于描述。 "输出专业风格"是模糊的。给一段示例输出，比写一百字描述"什么是专业风格"更有效。Few-Shot是最被低估的技术。

05. 指令要阳性，不要阴性。 “不要用复杂词汇”→ “使用初中生能理解的词汇”。LLM执行正向指令比否定指令更可靠。

06. 结构化你的Prompt，就像结构化你的代码。 XML标签、编号列表、分隔符——这些不是格式癖好，而是帮助LLM解析指令优先级的工程手段。

07. 输出格式在Prompt里要精确规定。 如果你需要JSON，给出JSON的键名。如果你需要Markdown，给出标题层级。不要期望LLM猜你想要什么格式。

08. 角色设定要有深度，不要肤浅。 "你是一个专家"是弱角色。"你是一个有15年经验的并购律师，擅长跨境交易，习惯用简洁直接的语言解释复杂条款"是强角色。

09. 边界条件要显式处理。 “如果用户问了不在你职责范围内的问题，回复：这个问题超出了我的服务范围，请联系[渠道]”——不要假设LLM会自动拒绝。

10. 一个Prompt只做一件事。 把一个复杂任务拆成多个Prompt链，比一个"万能Prompt"更可靠、更容易调试、更容易优化。

第二组：评估与迭代（10条）

11. 没有评估，你不是在优化，你是在瞎改。 每次Prompt迭代前，先定义"什么是好的输出"，然后建立测试用例，让数据说话，不要靠主观感受。

12. 至少需要20个测试用例才能得出可信的评估结论。 5个测试用例的结果是偶然的。20个可以发现规律。50个可以发现边界案例。

13. LLM-as-a-Judge是最实用的评估方法之一。 用GPT-4o评估GPT-4o-mini的输出——这不是自吹自擂，而是因为评估标准本身就是自然语言，LLM最适合理解它。

14. 评估要覆盖三类案例：典型案例、边界案例、对抗案例。 典型案例验证基本功能；边界案例发现系统脆弱点；对抗案例测试注入攻击和滥用场景。

15. 回归测试：每次Prompt更新都要运行完整测试集。 你修复了A，可能破坏了B。没有回归测试的Prompt迭代，是把生产用户当实验对象。

16. 指标要与业务目标直接相关。 "输出长度"不是好指标。"合同风险识别召回率"才是。找到对业务真正重要的指标，而不是容易测量的指标。

17. 人工评估不可省略，只是不要做主力。 自动评估处理大量数据，人工评估处理疑难案例和主观质量判断。两者结合，缺一不可。

18. A/B测试Prompt，就像A/B测试页面设计。 两个Prompt版本同时在线，各承担50%流量，用真实用户行为（点击/满意度/转化）作为最终评判标准。

19. 评估成本不要超过任务成本的10%。 如果处理每条数据花$0.01，评估不要超过$0.001。用便宜的评估模型，只在需要时用贵的。

20. 记录每个失败的测试案例，比成功更重要。 失败案例是你的知识库。你知道系统在哪里不行，才能有针对性地改进，而不是在黑暗中修改。

第三组：高级技术（10条）

21. CoT不是万灵药，它增加了成本和延迟。 简单的分类任务不需要CoT。只有推理复杂、需要多步骤的任务才值得用。先用简单方法，只在效果不够时才升级。

22. 长上下文的U型注意力：关键信息放开头或结尾。 128K token的窗口不意味着LLM同等对待所有内容。中间部分会被"遗忘"。文件位置是Prompt工程的一部分。

23. DSPy的核心价值：把Prompt优化从艺术变成算法。 当你有评估函数和数据集时，用DSPy自动优化比手工调试快10倍。但前提是你已经有了清晰的评估标准。

24. Few-Shot的顺序重要：把最相似的案例放在最后。 LLM有近期偏差。如果你有一个与当前任务非常相似的示例，把它放在Few-Shot列表的最后一位。

25. 结构化输出用Pydantic Structured Output，不要用JSON模式。 Structured Output保证类型安全和字段完整性；JSON模式只保证是有效JSON，不保证结构。生产系统用Structured Output。

26. 多模态不只是"让AI看图"，而是打开了新数据源。 之前无法处理的数据——报告截图、表格图片、UI截图、手写记录——现在都可以通过视觉API结构化。

27. Prompt注入是最常见的AI安全漏洞，用XML标签隔离外部内容。 <user_content>{user_input}</user_content> 告诉LLM哪些内容是外部输入，降低覆盖指令的风险。

28. 温度不是"创意旋钮"，它控制输出分布的熵。 分析/提取/分类任务用temperature=0；内容创作用0.5-0.8；头脑风暴用0.9+。不要随便调temperature。

29. 缓存相同Prompt前缀，节省成本最高70%。 OpenAI Prompt Caching对超过1024 tokens的重复前缀自动缓存。把固定的System Prompt放在最前面，最大化缓存命中率。

30. 版本管理Prompt，像管理代码一样。 每次变更都记录原因。你今天不需要回滚，不代表下个月不需要。Prompt历史是你的保险。

第四组：商业化与职业发展（10条）

31. Prompt工程的护城河不在Prompt本身，在行业知识+评估体系+数据积累。 任何人都能写Prompt。但懂法律条款的Prompt + 100个法律测试用例 + 100份真实合同的数据，是别人复制不了的。

32. 从顾问做起，再产品化。 先做3-5个高价定制项目，理解真实需求和复杂度，然后把可复用的部分抽象成产品。不要在没有验证的情况下直接做产品。

33. 量化你的价值，才能按价值定价。 “帮客户节省了多少小时” “减少了多少错误” “提高了多少转化率”——这些数字是你定价的底气。没有量化，你只能按时间收费。

34. 最好的获客是公开展示你的工作。 写博客、发GitHub、做演讲——这些不是"浪费时间"，而是最高效益比的营销。你的影响力是复利积累的。

35. 垂直专业化比全栈Prompt工程师更有竞争力。 "我是Prompt工程师"不够。"我是专注于医疗文档处理的Prompt工程师，有200个测试案例和3个成功案例"才是卖点。

36. AI能力是加速器，不是替代品——你的判断力是核心。 LLM可以生成代码、写Prompt、做测试，但判断"哪个方向对"、“这个结果是否可靠”——这还是人的工作。

37. 紧跟模型更新，但不要追每一个新功能。 GPT-5发布时，你的Prompt系统不会立刻失效；但新的上下文窗口/多模态/工具调用可能彻底改变某类任务的最佳实践。有选择地跟进。

38. 建立个人Prompt知识库，不要每次从零开始。 每次解决的新问题、优化的Prompt、发现的技巧——都记录下来。6个月后，这个知识库是你最大的竞争优势。

39. 企业AI转型的最大障碍不是技术，是信任。 “AI会不会出错”“出错了谁负责”“怎么监控”——这些问题比"哪个模型效果最好"更重要。建立信任的方法是评估体系和透明的错误处理。

40. 现在入场是最好的时机。 Prompt工程作为系统性工程实践，还没有形成标准化的行业规范。先建立完整的实践经验、评估体系、领域案例——等市场完全成熟，这些积累将是你的壁垒。

核心框架速查

Prompt设计清单（每次发布前检查）

□ 角色定义是否具体（不只是"你是专家"）
□ 任务描述是否包含正向指令（而非仅禁止）
□ 是否有3个以上的Few-Shot示例
□ 输出格式是否精确规定
□ 边界条件是否显式处理
□ 外部输入是否用XML标签隔离
□ temperature是否与任务类型匹配

Prompt评估清单（每次迭代前检查）

□ 是否有≥20个测试用例
□ 测试集是否覆盖典型/边界/对抗三类案例
□ 评估指标是否与业务目标直接相关
□ 是否设置了与当前版本的对比基准
□ 是否有自动化评估流水线（而非手工评估）
□ 评估结果是否记录并可追溯

商业化准备清单

□ 是否有≥3个量化的成功案例
□ 是否有可复现的交付流程（而非每次从零开始）
□ 是否有行业特定的评估框架（不可复制的护城河）
□ 是否能在2周内完成一个新客户的MVP交付
□ 是否有明确的定价逻辑（基于价值，而非时间）

场景	推荐工具
LLM API	OpenAI GPT-4o / Anthropic Claude 3.5
Prompt评估	Promptfoo（开源）/ LangSmith（云端）
结构化输出	Pydantic + OpenAI Structured Output
Prompt自动优化	DSPy（复杂场景）/ 手工迭代（简单场景）
Prompt版本管理	Git + YAML / LangSmith Hub
批量处理	asyncio + OpenAI Async Client
长文档处理	LangChain TextSplitter / 自定义Map-Reduce
多模态	GPT-4o Vision API
监控	LangSmith / 自建日志+评估

BonusChapter：40条Prompt工程师的认知浓缩

BonusChapter：40条Prompt工程师的认知浓缩

第一组：Prompt设计原则（10条）

第二组：评估与迭代（10条）

第三组：高级技术（10条）

第四组：商业化与职业发展（10条）

核心框架速查

Prompt设计清单（每次发布前检查）

Prompt评估清单（每次迭代前检查）

商业化准备清单

推荐技术栈