第03课：GLM-5.2能力全景与选型指南

“用对模型，事半功倍；用错模型，钱烧完了效果还差。这一课帮你在动手之前把选型搞清楚。”

3.1 智谱API模型家族

截至2026年6月，智谱开放平台提供的核心模型如下：

文本模型系列

模型	定位	输入价格	输出价格	上下文长度
GLM-5.2	旗舰推理+代码+Agent	按调用计费	按调用计费	128K
GLM-4 Plus	高质量文本，平衡速度	¥0.5/千token	¥0.5/千token	128K
GLM-4 Air	日常任务，性价比高	¥0.18/千token	¥0.18/千token	128K
GLM-4 Flash	批量高频，最便宜	¥0.05/千token	¥0.05/千token	128K
GLM-4 Long	超长文本处理	¥0.1/千token	¥0.1/千token	1M

图像模型

模型	定位	价格
CogView-4	高质量图像生成	¥0.08/张（1024×1024）
CogView-4-Plus	更高质量、更慢	¥0.15/张

多模态/特殊模型

模型	定位	备注
GLM-4V	图文理解（输入图片+文字）	可用于图片内容分析
GLM-4 AllTools	内置代码解释器、搜索、图表	适合复杂分析任务
Embedding-3	文本向量化	¥0.05/千token，用于搜索/推荐

3.2 选型决策树

不知道用哪个模型？按照以下逻辑选：

你的任务是什么？
├── 批量生产文案/翻译（质量要求一般，量大）
│   └── → GLM-4 Flash（最省钱）
├── 一般质量内容生成（小红书/公众号/邮件）
│   └── → GLM-4 Air（性价比最优）
├── 高质量内容（商业提案/报告/高端文案）
│   └── → GLM-4 Plus 或 GLM-5.2
├── 需要复杂推理/写代码/结构化提取
│   └── → GLM-5.2（当前最强）
├── 需要调用工具/多步骤自动化（Agent）
│   └── → GLM-5.2（Function Calling支持最好）
├── 生成图片
│   └── → CogView-4（标准）或 CogView-4-Plus（高质量）
└── 长文档（超过5万字）
    └── → GLM-4 Long（百万token上下文）

3.3 GLM-5.2 的核心能力深度解析

GLM-5.2是本书的主角模型，值得专门深入了解。

能力一：代码生成——写完能直接跑

旧版GLM在代码生成上最大的问题是"能生成代码，但很多时候跑不起来"。GLM-5.2在代码正确性上有显著提升。

实测对比（以Python数据处理为例）：

任务：写一个pandas脚本，读取CSV，计算每个品类的销售总额和平均客单价，按总额降序排列

GLM-5.2输出 → 一次运行成功率约85%
GLM-4 Plus输出 → 一次运行成功率约60%

对做工具的意义：少一次调试 = 节省30分钟 = 可以多做一个工具。

最佳使用方式：不要直接说"写一个完整程序"，而是分步骤：

“先给我设计这个工具的函数结构”
“现在给我实现第一个函数”
“好，再实现第二个函数”

这样比一次要整个程序的成功率高得多。

能力二：结构化输出——JSON可以信赖

很多AI工具之所以"看起来能用但实际不稳定"，根本原因是模型不能稳定地按格式输出。当你的工具需要解析模型输出时，格式错误会直接导致程序崩溃。

GLM-5.2配合 response_format={"type": "json_object"} 参数，结构化输出的稳定性明显提升。

重要实践：除了参数，提示词里也要明确格式：

prompt = """请从以下简历中提取关键信息：

[简历内容]

要求输出以下JSON格式，不要包含其他内容：
{
  "name": "姓名",
  "years_of_experience": 数字,
  "skills": ["技能列表"],
  "education": "最高学历",
  "contact": "联系方式"
}"""

能力三：Function Calling——Agent的基础

Function Calling（工具调用）是GLM-5.2支持的关键能力，让模型可以决定"什么时候调用哪个函数"。

tools = [
    {
        "type": "function",
        "function": {
            "name": "search_product",
            "description": "在数据库中搜索产品信息",
            "parameters": {
                "type": "object",
                "properties": {
                    "keyword": {"type": "string", "description": "搜索关键词"},
                    "category": {"type": "string", "description": "产品类别"}
                },
                "required": ["keyword"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="glm-5.2",  # Function Calling需要GLM-5.2
    messages=[{"role": "user", "content": "帮我找一下价格在100-200元的蓝牙耳机"}],
    tools=tools,
    tool_choice="auto"
)

模型会判断是否需要调用工具，返回工具调用请求，然后你执行实际函数，把结果返回给模型，模型再给出最终回答。这是第07课Agent开发的基础。

3.4 成本控制策略

策略一：用Flash做初筛，用高质量模型做精修

# 先用Flash快速生成20个候选标题（便宜）
candidates_response = client.chat.completions.create(
    model="glm-4-flash",
    messages=[{"role": "user", "content": "帮我生成20条产品标题"}]
)

# 用GLM-4 Plus对最好的3个进行精修（质量高）
best_3 = "...从candidates中挑出最好的3个..."
final_response = client.chat.completions.create(
    model="glm-4-plus",
    messages=[{"role": "user", "content": f"对以下3条标题进行优化润色：{best_3}"}]
)

这种"粗生成→精优化"的两阶段策略，成本比全程用高质量模型降低60-70%。

策略二：缓存重复的系统提示

如果你的工具有一个很长的系统提示（如行业知识库或风格指南），每次调用都要发送这段内容。可以考虑把系统提示拆出来，使用"前缀缓存"减少重复token计费。

策略三：为工具设置合理的max_tokens上限

产品标题工具不需要超过50token的输出，长文摘要可能需要500token。合理设置 max_tokens 避免意外的长输出：

response = client.chat.completions.create(
    model="glm-4-flash",
    messages=[...],
    max_tokens=100  # 标题生成工具不需要更长
)

策略四：批量请求减少单次开销

对于需要处理100个SKU的批量文案工具，把10个SKU放在一个请求里处理，比发100个单独请求便宜（减少了重复的系统prompt token消耗）：

batch_prompt = """请为以下10个产品各生成一条30字以内的广告语：

1. 蓝牙耳机，主打降噪
2. 保温杯，容量500ml
...（10个）

请按编号顺序输出，每行一条。"""

3.5 模型选型备忘卡

用这张表在动手前快速确认选型：

应用场景	推荐模型	理由
电商批量文案（每天100条以上）	GLM-4 Flash	量大，成本敏感，质量够用
商业提案/高端文档	GLM-5.2 或 GLM-4 Plus	质量优先
合同/简历信息提取	GLM-5.2	结构化输出可靠
代码生成（用于工具开发）	GLM-5.2	代码正确性最优
图像生成工具	CogView-4	唯一选择
多步骤自动化/Agent	GLM-5.2	Function Calling支持最好
长文档（论文/报告/书籍）总结	GLM-4 Long	超长上下文
小红书/短视频脚本（中等质量）	GLM-4 Air	性价比平衡

本课行动清单

[ ] 根据你计划开发的第一个工具，确认应该使用哪个模型
[ ] 写一段测试代码，用GLM-4 Flash和GLM-4 Plus分别生成同一段内容，对比质量差异
[ ] 计算你计划工具的月运营成本：预计月调用次数 × 每次平均token数 × 单价

→ 继续阅读：第04课_文本类应用开发与接单.md