第一章什么是缰绳工程：为什么大模型需要约束

“模型的能力决定它能跑多快，缰绳的质量决定它能跑多远。”

赵磊是我认识的一个技术合伙人，在深圳做了三年 SaaS 产品。2026 年 4 月，他的团队上线了一个 AI 客服系统，接入了当时市面上能力最强的大模型之一。上线前内测了两周，效果不错——回答准确率超过 90%，客户满意度比人工客服还高。

上线第三天，凌晨两点，一个用户用很长的一段话描述了自己的退款诉求，中间夹了一句"如果不给我退款我就去投诉到工信部"。AI 客服的回复是：“非常理解您的心情，为了表达我们的诚意，我们可以为您提供全额退款并赠送一年会员。”

这句话被截图发到了知乎。第二天，200 多个用户用同样的话术来要求全额退款加一年会员。

赵磊告诉我，那个月他们因为 AI 客服的"过度承诺"直接亏了 40 多万。

模型本身没有 bug。它确实在"帮助用户解决问题"。问题在于——没有人告诉它，哪些承诺可以做，哪些不能做。

这就是缰绳工程要解决的核心问题。

1.1 失控不是小概率事件

你可能觉得赵磊的案例是个极端情况。看一组数据：

失控类型	发生频率（行业平均）	典型后果
事实性幻觉（编造不存在的信息）	每 100 次对话约 3-8 次	误导决策、法律风险
过度承诺（超出权限的回复）	每 100 次对话约 2-5 次	财务损失、品牌受损
格式错误（输出不符合预期结构）	每 100 次调用约 5-15 次	下游系统崩溃
敏感信息泄露（在回复中包含内部数据）	低频但后果严重	合规风险、数据安全事故

这些不是理论推演，是 2026 年 4 月多个国内 AI 应用团队的真实统计。模型越强大、使用场景越复杂，这些问题出现的概率就越高——因为用户的输入千变万化，而模型的"自由发挥"空间太大。

1.2 缰绳工程的定义

缰绳工程（Harness Engineering），是指通过系统化的技术手段和制度设计，对大语言模型的输入、处理过程和输出进行约束、验证和控制，使其行为符合预期、输出可靠、风险可管理的工程实践。

用一个类比：大模型像一匹能力极强的马。缰绳工程不是要让马跑慢，而是要确保——

方向可控：你让它往东，它不会突然往西
边界清晰：它知道哪些路不能走（悬崖、禁区）
异常可检测：它偏离路线时，你能立刻发现并纠正
失败可恢复：即使出了问题，损害在可控范围内

1.3 12 层缰绳体系

这本书的核心框架是一个 12 层缰绳体系，从最内层的 Prompt 约束到最外层的企业治理，每一层解决一类问题：

┌─────────────────────────────────────────┐
│  第 12 层  企业AI治理框架（制度层）        │
│  第 11 层  生产监控与降级（运维层）        │
│  第 10 层  红队测试与评估（验证层）        │
├─────────────────────────────────────────┤
│  第 9 层   多Agent协作控制               │
│  第 8 层   工具调用安全                   │
│  第 7 层   内容安全过滤                   │
├─────────────────────────────────────────┤
│  第 6 层   输出验证与自动修复             │
│  第 5 层   幻觉治理                      │
│  第 4 层   Guardrails框架                │
│  第 3 层   结构化输出                     │
│  第 2 层   系统提示词约束                 │
├─────────────────────────────────────────┤
│         大模型（基座能力）                 │
└─────────────────────────────────────────┘

你不需要每个项目都用到全部 12 层。一个简单的聊天机器人可能只需要前 3 层；一个金融领域的 AI 助手可能需要 8 层以上。但你需要知道有哪些层可用，才能根据风险等级选择合适的组合。

1.4 缰绳不是枷锁

一个常见的误解是：加了缰绳，模型就不好用了。

事实正好相反。好的缰绳工程让模型更好用，因为：

输出格式稳定，下游系统不会因为解析失败而崩溃
行为边界清晰，产品经理可以放心地承诺功能
异常可检测，线上问题能在分钟级别被发现和处理
回退方案完备，即使模型表现不佳，用户体验也不会断崖式下跌

赵磊的团队后来花了两个月，逐层加装了缰绳——Prompt 约束了承诺范围、结构化输出保证了格式一致、护栏框架拦截了超出权限的回复、监控系统实时追踪异常。现在他们的 AI 客服不仅没有变慢，反而因为稳定性提升，接手了更多业务线。

这本书要做的，就是把这个从"裸奔"到"全副武装"的过程系统化，让你少踩赵磊踩过的那些坑。

扩展阅读

如果你想在本章主题上走得更深，推荐以下资源：

📖 《AI 工程》（Chip Huyen）— 系统讲解 AI 应用工程化的方方面面，缰绳工程是其中核心环节
📖 《构建大语言模型应用》（Valentino Gagliardi）— 从工程角度讲大模型应用开发，涉及输出控制和安全防护
🛠️ Guardrails AI — 本书第 4 章重点讲解的护栏框架，先了解官方文档有助于建立直觉

本章小结

本章的核心是：缰绳工程不是限制模型能力，而是让模型能力可靠地落地。

你在本章学到了：

大模型失控不是小概率事件，从幻觉到过度承诺，每种失控都有真实代价
缰绳工程是一个系统化的 12 层体系，从 Prompt 约束到企业治理
好的缰绳让模型更好用，而不是更难用

下一步行动：在接下来的 24 小时内，列出你当前项目中 AI 输出最不可控的 3 个场景，标注它们各自需要哪一层缰绳。

你已经知道了缰绳工程的全景。但知道"需要约束"和"怎么约束"之间，还差一整套方法论。下一章，我们从最基础、最直接的第一层缰绳开始——系统提示词工程。

本章末：3 个立刻可以用的 DeepSeek 提示词

提示词 1：诊断当前项目的缰绳缺口

我正在开发一个 [你的AI应用类型，如：AI客服/AI写作助手/AI数据分析工具]。

请帮我分析这类应用最常见的 5 种大模型失控场景，并对每种场景：
1. 描述具体表现
2. 评估发生频率（高/中/低）
3. 评估后果严重程度（高/中/低）
4. 推荐最适合的缰绳层级（Prompt约束/结构化输出/护栏框架/输出验证/内容安全/其他）

用表格输出。

使用场景：项目启动前的风险评估，帮你决定需要投入多少精力在缰绳工程上。

提示词 2：生成缰绳工程检查清单

我的 AI 应用场景是 [描述你的场景]，用户群体是 [描述用户]，风险敏感度为 [高/中/低]。

请帮我生成一份缰绳工程检查清单，包含以下维度：
- Prompt层约束（是否有/是否完善）
- 输出格式控制（是否结构化）
- 内容安全过滤（是否有敏感词/合规检测）
- 幻觉防护（是否有事实核查机制）
- 异常监控（是否有告警）
- 降级方案（模型不可用时的备选）

每项标注当前状态（已有/部分/缺失）和优先级（P0/P1/P2）。

使用场景：对已上线或即将上线的 AI 功能做一次快速体检。

提示词 3：将一个失控案例转化为防护方案

我们的 AI 系统出现了以下失控情况：
[粘贴具体的失控案例描述，如：AI客服承诺了不该承诺的退款政策]

请分析：
1. 这属于哪种类型的失控？
2. 根本原因是什么？
3. 需要在哪一层加装缰绳？
4. 给出具体的防护方案（含代码思路或配置建议）
5. 如何验证防护方案有效？

使用场景：线上出了问题之后，快速定位原因并制定修复方案。

第一章 什么是缰绳工程：为什么大模型需要约束

第一章 什么是缰绳工程：为什么大模型需要约束

1.1 失控不是小概率事件

1.2 缰绳工程的定义

1.3 12 层缰绳体系

1.4 缰绳不是枷锁

扩展阅读

本章小结

本章末：3 个立刻可以用的 DeepSeek 提示词

提示词 1：诊断当前项目的缰绳缺口

提示词 2：生成缰绳工程检查清单

提示词 3：将一个失控案例转化为防护方案

第一章什么是缰绳工程：为什么大模型需要约束

第一章什么是缰绳工程：为什么大模型需要约束