第03课:GLM-5.2能力全景与选型指南

第03课:GLM-5.2能力全景与选型指南

“用对模型,事半功倍;用错模型,钱烧完了效果还差。这一课帮你在动手之前把选型搞清楚。”


3.1 智谱API模型家族

截至2026年6月,智谱开放平台提供的核心模型如下:

文本模型系列

模型 定位 输入价格 输出价格 上下文长度
GLM-5.2 旗舰推理+代码+Agent 按调用计费 按调用计费 128K
GLM-4 Plus 高质量文本,平衡速度 ¥0.5/千token ¥0.5/千token 128K
GLM-4 Air 日常任务,性价比高 ¥0.18/千token ¥0.18/千token 128K
GLM-4 Flash 批量高频,最便宜 ¥0.05/千token ¥0.05/千token 128K
GLM-4 Long 超长文本处理 ¥0.1/千token ¥0.1/千token 1M

图像模型

模型 定位 价格
CogView-4 高质量图像生成 ¥0.08/张(1024×1024)
CogView-4-Plus 更高质量、更慢 ¥0.15/张

多模态/特殊模型

模型 定位 备注
GLM-4V 图文理解(输入图片+文字) 可用于图片内容分析
GLM-4 AllTools 内置代码解释器、搜索、图表 适合复杂分析任务
Embedding-3 文本向量化 ¥0.05/千token,用于搜索/推荐

3.2 选型决策树

不知道用哪个模型?按照以下逻辑选:

你的任务是什么?
├── 批量生产文案/翻译(质量要求一般,量大)
│   └── → GLM-4 Flash(最省钱)
├── 一般质量内容生成(小红书/公众号/邮件)
│   └── → GLM-4 Air(性价比最优)
├── 高质量内容(商业提案/报告/高端文案)
│   └── → GLM-4 Plus 或 GLM-5.2
├── 需要复杂推理/写代码/结构化提取
│   └── → GLM-5.2(当前最强)
├── 需要调用工具/多步骤自动化(Agent)
│   └── → GLM-5.2(Function Calling支持最好)
├── 生成图片
│   └── → CogView-4(标准)或 CogView-4-Plus(高质量)
└── 长文档(超过5万字)
    └── → GLM-4 Long(百万token上下文)

3.3 GLM-5.2 的核心能力深度解析

GLM-5.2是本书的主角模型,值得专门深入了解。

能力一:代码生成——写完能直接跑

旧版GLM在代码生成上最大的问题是"能生成代码,但很多时候跑不起来"。GLM-5.2在代码正确性上有显著提升。

实测对比(以Python数据处理为例)

任务:写一个pandas脚本,读取CSV,计算每个品类的销售总额和平均客单价,按总额降序排列

GLM-5.2输出 → 一次运行成功率约85%
GLM-4 Plus输出 → 一次运行成功率约60%

对做工具的意义:少一次调试 = 节省30分钟 = 可以多做一个工具。

最佳使用方式:不要直接说"写一个完整程序",而是分步骤:

  1. “先给我设计这个工具的函数结构”
  2. “现在给我实现第一个函数”
  3. “好,再实现第二个函数”

这样比一次要整个程序的成功率高得多。

能力二:结构化输出——JSON可以信赖

很多AI工具之所以"看起来能用但实际不稳定",根本原因是模型不能稳定地按格式输出。当你的工具需要解析模型输出时,格式错误会直接导致程序崩溃。

GLM-5.2配合 response_format={"type": "json_object"} 参数,结构化输出的稳定性明显提升。

重要实践:除了参数,提示词里也要明确格式:

prompt = """请从以下简历中提取关键信息:

[简历内容]

要求输出以下JSON格式,不要包含其他内容:
{
  "name": "姓名",
  "years_of_experience": 数字,
  "skills": ["技能列表"],
  "education": "最高学历",
  "contact": "联系方式"
}"""

能力三:Function Calling——Agent的基础

Function Calling(工具调用)是GLM-5.2支持的关键能力,让模型可以决定"什么时候调用哪个函数"。

tools = [
    {
        "type": "function",
        "function": {
            "name": "search_product",
            "description": "在数据库中搜索产品信息",
            "parameters": {
                "type": "object",
                "properties": {
                    "keyword": {"type": "string", "description": "搜索关键词"},
                    "category": {"type": "string", "description": "产品类别"}
                },
                "required": ["keyword"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="glm-5.2",  # Function Calling需要GLM-5.2
    messages=[{"role": "user", "content": "帮我找一下价格在100-200元的蓝牙耳机"}],
    tools=tools,
    tool_choice="auto"
)

模型会判断是否需要调用工具,返回工具调用请求,然后你执行实际函数,把结果返回给模型,模型再给出最终回答。这是第07课Agent开发的基础。


3.4 成本控制策略

策略一:用Flash做初筛,用高质量模型做精修

# 先用Flash快速生成20个候选标题(便宜)
candidates_response = client.chat.completions.create(
    model="glm-4-flash",
    messages=[{"role": "user", "content": "帮我生成20条产品标题"}]
)

# 用GLM-4 Plus对最好的3个进行精修(质量高)
best_3 = "...从candidates中挑出最好的3个..."
final_response = client.chat.completions.create(
    model="glm-4-plus",
    messages=[{"role": "user", "content": f"对以下3条标题进行优化润色:{best_3}"}]
)

这种"粗生成→精优化"的两阶段策略,成本比全程用高质量模型降低60-70%。

策略二:缓存重复的系统提示

如果你的工具有一个很长的系统提示(如行业知识库或风格指南),每次调用都要发送这段内容。可以考虑把系统提示拆出来,使用"前缀缓存"减少重复token计费。

策略三:为工具设置合理的max_tokens上限

产品标题工具不需要超过50token的输出,长文摘要可能需要500token。合理设置 max_tokens 避免意外的长输出:

response = client.chat.completions.create(
    model="glm-4-flash",
    messages=[...],
    max_tokens=100  # 标题生成工具不需要更长
)

策略四:批量请求减少单次开销

对于需要处理100个SKU的批量文案工具,把10个SKU放在一个请求里处理,比发100个单独请求便宜(减少了重复的系统prompt token消耗):

batch_prompt = """请为以下10个产品各生成一条30字以内的广告语:

1. 蓝牙耳机,主打降噪
2. 保温杯,容量500ml
...(10个)

请按编号顺序输出,每行一条。"""

3.5 模型选型备忘卡

用这张表在动手前快速确认选型:

应用场景 推荐模型 理由
电商批量文案(每天100条以上) GLM-4 Flash 量大,成本敏感,质量够用
商业提案/高端文档 GLM-5.2 或 GLM-4 Plus 质量优先
合同/简历信息提取 GLM-5.2 结构化输出可靠
代码生成(用于工具开发) GLM-5.2 代码正确性最优
图像生成工具 CogView-4 唯一选择
多步骤自动化/Agent GLM-5.2 Function Calling支持最好
长文档(论文/报告/书籍)总结 GLM-4 Long 超长上下文
小红书/短视频脚本(中等质量) GLM-4 Air 性价比平衡

本课行动清单

  • [ ] 根据你计划开发的第一个工具,确认应该使用哪个模型
  • [ ] 写一段测试代码,用GLM-4 Flash和GLM-4 Plus分别生成同一段内容,对比质量差异
  • [ ] 计算你计划工具的月运营成本:预计月调用次数 × 每次平均token数 × 单价

→ 继续阅读:第04课_文本类应用开发与接单.md