BonusChapter:40条Prompt工程师的认知浓缩

BonusChapter:40条Prompt工程师的认知浓缩

这是本书的浓缩版。如果你只能记住40件事,记住这些。每一条都是在真实系统构建中提炼的认知,不是理论,是规律。


第一组:Prompt设计原则(10条)

01. Prompt是与概率分布对话,不是与人对话。 每个输出都是一个采样结果,温度控制的是采样的随机性。理解这一点,你就不会"责怪"LLM——你只能调整分布。

02. 越具体越好,越长不一定越好。 "写一篇关于AI的文章"比"写2000字、面向初学者、用3个真实案例解释AI如何影响零售行业"差100倍。精确的约束是Prompt的骨架。

03. System Prompt是规则层,User Prompt是执行层。 把不变的角色、约束、输出格式放进System;把变化的输入和问题放进User。不要把所有东西塞进一个Prompt。

04. 示例胜于描述。 "输出专业风格"是模糊的。给一段示例输出,比写一百字描述"什么是专业风格"更有效。Few-Shot是最被低估的技术。

05. 指令要阳性,不要阴性。 “不要用复杂词汇”→ “使用初中生能理解的词汇”。LLM执行正向指令比否定指令更可靠。

06. 结构化你的Prompt,就像结构化你的代码。 XML标签、编号列表、分隔符——这些不是格式癖好,而是帮助LLM解析指令优先级的工程手段。

07. 输出格式在Prompt里要精确规定。 如果你需要JSON,给出JSON的键名。如果你需要Markdown,给出标题层级。不要期望LLM猜你想要什么格式。

08. 角色设定要有深度,不要肤浅。 "你是一个专家"是弱角色。"你是一个有15年经验的并购律师,擅长跨境交易,习惯用简洁直接的语言解释复杂条款"是强角色。

09. 边界条件要显式处理。 “如果用户问了不在你职责范围内的问题,回复:这个问题超出了我的服务范围,请联系[渠道]”——不要假设LLM会自动拒绝。

10. 一个Prompt只做一件事。 把一个复杂任务拆成多个Prompt链,比一个"万能Prompt"更可靠、更容易调试、更容易优化。


第二组:评估与迭代(10条)

11. 没有评估,你不是在优化,你是在瞎改。 每次Prompt迭代前,先定义"什么是好的输出",然后建立测试用例,让数据说话,不要靠主观感受。

12. 至少需要20个测试用例才能得出可信的评估结论。 5个测试用例的结果是偶然的。20个可以发现规律。50个可以发现边界案例。

13. LLM-as-a-Judge是最实用的评估方法之一。 用GPT-4o评估GPT-4o-mini的输出——这不是自吹自擂,而是因为评估标准本身就是自然语言,LLM最适合理解它。

14. 评估要覆盖三类案例:典型案例、边界案例、对抗案例。 典型案例验证基本功能;边界案例发现系统脆弱点;对抗案例测试注入攻击和滥用场景。

15. 回归测试:每次Prompt更新都要运行完整测试集。 你修复了A,可能破坏了B。没有回归测试的Prompt迭代,是把生产用户当实验对象。

16. 指标要与业务目标直接相关。 "输出长度"不是好指标。"合同风险识别召回率"才是。找到对业务真正重要的指标,而不是容易测量的指标。

17. 人工评估不可省略,只是不要做主力。 自动评估处理大量数据,人工评估处理疑难案例和主观质量判断。两者结合,缺一不可。

18. A/B测试Prompt,就像A/B测试页面设计。 两个Prompt版本同时在线,各承担50%流量,用真实用户行为(点击/满意度/转化)作为最终评判标准。

19. 评估成本不要超过任务成本的10%。 如果处理每条数据花$0.01,评估不要超过$0.001。用便宜的评估模型,只在需要时用贵的。

20. 记录每个失败的测试案例,比成功更重要。 失败案例是你的知识库。你知道系统在哪里不行,才能有针对性地改进,而不是在黑暗中修改。


第三组:高级技术(10条)

21. CoT不是万灵药,它增加了成本和延迟。 简单的分类任务不需要CoT。只有推理复杂、需要多步骤的任务才值得用。先用简单方法,只在效果不够时才升级。

22. 长上下文的U型注意力:关键信息放开头或结尾。 128K token的窗口不意味着LLM同等对待所有内容。中间部分会被"遗忘"。文件位置是Prompt工程的一部分。

23. DSPy的核心价值:把Prompt优化从艺术变成算法。 当你有评估函数和数据集时,用DSPy自动优化比手工调试快10倍。但前提是你已经有了清晰的评估标准。

24. Few-Shot的顺序重要:把最相似的案例放在最后。 LLM有近期偏差。如果你有一个与当前任务非常相似的示例,把它放在Few-Shot列表的最后一位。

25. 结构化输出用Pydantic Structured Output,不要用JSON模式。 Structured Output保证类型安全和字段完整性;JSON模式只保证是有效JSON,不保证结构。生产系统用Structured Output。

26. 多模态不只是"让AI看图",而是打开了新数据源。 之前无法处理的数据——报告截图、表格图片、UI截图、手写记录——现在都可以通过视觉API结构化。

27. Prompt注入是最常见的AI安全漏洞,用XML标签隔离外部内容。 <user_content>{user_input}</user_content> 告诉LLM哪些内容是外部输入,降低覆盖指令的风险。

28. 温度不是"创意旋钮",它控制输出分布的熵。 分析/提取/分类任务用temperature=0;内容创作用0.5-0.8;头脑风暴用0.9+。不要随便调temperature。

29. 缓存相同Prompt前缀,节省成本最高70%。 OpenAI Prompt Caching对超过1024 tokens的重复前缀自动缓存。把固定的System Prompt放在最前面,最大化缓存命中率。

30. 版本管理Prompt,像管理代码一样。 每次变更都记录原因。你今天不需要回滚,不代表下个月不需要。Prompt历史是你的保险。


第四组:商业化与职业发展(10条)

31. Prompt工程的护城河不在Prompt本身,在行业知识+评估体系+数据积累。 任何人都能写Prompt。但懂法律条款的Prompt + 100个法律测试用例 + 100份真实合同的数据,是别人复制不了的。

32. 从顾问做起,再产品化。 先做3-5个高价定制项目,理解真实需求和复杂度,然后把可复用的部分抽象成产品。不要在没有验证的情况下直接做产品。

33. 量化你的价值,才能按价值定价。 “帮客户节省了多少小时” “减少了多少错误” “提高了多少转化率”——这些数字是你定价的底气。没有量化,你只能按时间收费。

34. 最好的获客是公开展示你的工作。 写博客、发GitHub、做演讲——这些不是"浪费时间",而是最高效益比的营销。你的影响力是复利积累的。

35. 垂直专业化比全栈Prompt工程师更有竞争力。 "我是Prompt工程师"不够。"我是专注于医疗文档处理的Prompt工程师,有200个测试案例和3个成功案例"才是卖点。

36. AI能力是加速器,不是替代品——你的判断力是核心。 LLM可以生成代码、写Prompt、做测试,但判断"哪个方向对"、“这个结果是否可靠”——这还是人的工作。

37. 紧跟模型更新,但不要追每一个新功能。 GPT-5发布时,你的Prompt系统不会立刻失效;但新的上下文窗口/多模态/工具调用可能彻底改变某类任务的最佳实践。有选择地跟进。

38. 建立个人Prompt知识库,不要每次从零开始。 每次解决的新问题、优化的Prompt、发现的技巧——都记录下来。6个月后,这个知识库是你最大的竞争优势。

39. 企业AI转型的最大障碍不是技术,是信任。 “AI会不会出错”“出错了谁负责”“怎么监控”——这些问题比"哪个模型效果最好"更重要。建立信任的方法是评估体系和透明的错误处理。

40. 现在入场是最好的时机。 Prompt工程作为系统性工程实践,还没有形成标准化的行业规范。先建立完整的实践经验、评估体系、领域案例——等市场完全成熟,这些积累将是你的壁垒。


核心框架速查

Prompt设计清单(每次发布前检查)

□ 角色定义是否具体(不只是"你是专家")
□ 任务描述是否包含正向指令(而非仅禁止)
□ 是否有3个以上的Few-Shot示例
□ 输出格式是否精确规定
□ 边界条件是否显式处理
□ 外部输入是否用XML标签隔离
□ temperature是否与任务类型匹配

Prompt评估清单(每次迭代前检查)

□ 是否有≥20个测试用例
□ 测试集是否覆盖典型/边界/对抗三类案例
□ 评估指标是否与业务目标直接相关
□ 是否设置了与当前版本的对比基准
□ 是否有自动化评估流水线(而非手工评估)
□ 评估结果是否记录并可追溯

商业化准备清单

□ 是否有≥3个量化的成功案例
□ 是否有可复现的交付流程(而非每次从零开始)
□ 是否有行业特定的评估框架(不可复制的护城河)
□ 是否能在2周内完成一个新客户的MVP交付
□ 是否有明确的定价逻辑(基于价值,而非时间)

推荐技术栈

场景 推荐工具
LLM API OpenAI GPT-4o / Anthropic Claude 3.5
Prompt评估 Promptfoo(开源)/ LangSmith(云端)
结构化输出 Pydantic + OpenAI Structured Output
Prompt自动优化 DSPy(复杂场景)/ 手工迭代(简单场景)
Prompt版本管理 Git + YAML / LangSmith Hub
批量处理 asyncio + OpenAI Async Client
长文档处理 LangChain TextSplitter / 自定义Map-Reduce
多模态 GPT-4o Vision API
监控 LangSmith / 自建日志+评估

Prompt工程的终点不是"写出完美的Prompt",而是"建立一个能持续改进、可以衡量、可以扩展的AI系统"。这是工程思维,不是魔法思维。