第03课:GLM-5.2能力全景与选型指南
第03课:GLM-5.2能力全景与选型指南
“用对模型,事半功倍;用错模型,钱烧完了效果还差。这一课帮你在动手之前把选型搞清楚。”
3.1 智谱API模型家族
截至2026年6月,智谱开放平台提供的核心模型如下:
文本模型系列
| 模型 | 定位 | 输入价格 | 输出价格 | 上下文长度 |
|---|---|---|---|---|
| GLM-5.2 | 旗舰推理+代码+Agent | 按调用计费 | 按调用计费 | 128K |
| GLM-4 Plus | 高质量文本,平衡速度 | ¥0.5/千token | ¥0.5/千token | 128K |
| GLM-4 Air | 日常任务,性价比高 | ¥0.18/千token | ¥0.18/千token | 128K |
| GLM-4 Flash | 批量高频,最便宜 | ¥0.05/千token | ¥0.05/千token | 128K |
| GLM-4 Long | 超长文本处理 | ¥0.1/千token | ¥0.1/千token | 1M |
图像模型
| 模型 | 定位 | 价格 |
|---|---|---|
| CogView-4 | 高质量图像生成 | ¥0.08/张(1024×1024) |
| CogView-4-Plus | 更高质量、更慢 | ¥0.15/张 |
多模态/特殊模型
| 模型 | 定位 | 备注 |
|---|---|---|
| GLM-4V | 图文理解(输入图片+文字) | 可用于图片内容分析 |
| GLM-4 AllTools | 内置代码解释器、搜索、图表 | 适合复杂分析任务 |
| Embedding-3 | 文本向量化 | ¥0.05/千token,用于搜索/推荐 |
3.2 选型决策树
不知道用哪个模型?按照以下逻辑选:
你的任务是什么?
├── 批量生产文案/翻译(质量要求一般,量大)
│ └── → GLM-4 Flash(最省钱)
├── 一般质量内容生成(小红书/公众号/邮件)
│ └── → GLM-4 Air(性价比最优)
├── 高质量内容(商业提案/报告/高端文案)
│ └── → GLM-4 Plus 或 GLM-5.2
├── 需要复杂推理/写代码/结构化提取
│ └── → GLM-5.2(当前最强)
├── 需要调用工具/多步骤自动化(Agent)
│ └── → GLM-5.2(Function Calling支持最好)
├── 生成图片
│ └── → CogView-4(标准)或 CogView-4-Plus(高质量)
└── 长文档(超过5万字)
└── → GLM-4 Long(百万token上下文)
3.3 GLM-5.2 的核心能力深度解析
GLM-5.2是本书的主角模型,值得专门深入了解。
能力一:代码生成——写完能直接跑
旧版GLM在代码生成上最大的问题是"能生成代码,但很多时候跑不起来"。GLM-5.2在代码正确性上有显著提升。
实测对比(以Python数据处理为例):
任务:写一个pandas脚本,读取CSV,计算每个品类的销售总额和平均客单价,按总额降序排列
GLM-5.2输出 → 一次运行成功率约85%
GLM-4 Plus输出 → 一次运行成功率约60%
对做工具的意义:少一次调试 = 节省30分钟 = 可以多做一个工具。
最佳使用方式:不要直接说"写一个完整程序",而是分步骤:
- “先给我设计这个工具的函数结构”
- “现在给我实现第一个函数”
- “好,再实现第二个函数”
这样比一次要整个程序的成功率高得多。
能力二:结构化输出——JSON可以信赖
很多AI工具之所以"看起来能用但实际不稳定",根本原因是模型不能稳定地按格式输出。当你的工具需要解析模型输出时,格式错误会直接导致程序崩溃。
GLM-5.2配合 response_format={"type": "json_object"} 参数,结构化输出的稳定性明显提升。
重要实践:除了参数,提示词里也要明确格式:
prompt = """请从以下简历中提取关键信息:
[简历内容]
要求输出以下JSON格式,不要包含其他内容:
{
"name": "姓名",
"years_of_experience": 数字,
"skills": ["技能列表"],
"education": "最高学历",
"contact": "联系方式"
}"""
能力三:Function Calling——Agent的基础
Function Calling(工具调用)是GLM-5.2支持的关键能力,让模型可以决定"什么时候调用哪个函数"。
tools = [
{
"type": "function",
"function": {
"name": "search_product",
"description": "在数据库中搜索产品信息",
"parameters": {
"type": "object",
"properties": {
"keyword": {"type": "string", "description": "搜索关键词"},
"category": {"type": "string", "description": "产品类别"}
},
"required": ["keyword"]
}
}
}
]
response = client.chat.completions.create(
model="glm-5.2", # Function Calling需要GLM-5.2
messages=[{"role": "user", "content": "帮我找一下价格在100-200元的蓝牙耳机"}],
tools=tools,
tool_choice="auto"
)
模型会判断是否需要调用工具,返回工具调用请求,然后你执行实际函数,把结果返回给模型,模型再给出最终回答。这是第07课Agent开发的基础。
3.4 成本控制策略
策略一:用Flash做初筛,用高质量模型做精修
# 先用Flash快速生成20个候选标题(便宜)
candidates_response = client.chat.completions.create(
model="glm-4-flash",
messages=[{"role": "user", "content": "帮我生成20条产品标题"}]
)
# 用GLM-4 Plus对最好的3个进行精修(质量高)
best_3 = "...从candidates中挑出最好的3个..."
final_response = client.chat.completions.create(
model="glm-4-plus",
messages=[{"role": "user", "content": f"对以下3条标题进行优化润色:{best_3}"}]
)
这种"粗生成→精优化"的两阶段策略,成本比全程用高质量模型降低60-70%。
策略二:缓存重复的系统提示
如果你的工具有一个很长的系统提示(如行业知识库或风格指南),每次调用都要发送这段内容。可以考虑把系统提示拆出来,使用"前缀缓存"减少重复token计费。
策略三:为工具设置合理的max_tokens上限
产品标题工具不需要超过50token的输出,长文摘要可能需要500token。合理设置 max_tokens 避免意外的长输出:
response = client.chat.completions.create(
model="glm-4-flash",
messages=[...],
max_tokens=100 # 标题生成工具不需要更长
)
策略四:批量请求减少单次开销
对于需要处理100个SKU的批量文案工具,把10个SKU放在一个请求里处理,比发100个单独请求便宜(减少了重复的系统prompt token消耗):
batch_prompt = """请为以下10个产品各生成一条30字以内的广告语:
1. 蓝牙耳机,主打降噪
2. 保温杯,容量500ml
...(10个)
请按编号顺序输出,每行一条。"""
3.5 模型选型备忘卡
用这张表在动手前快速确认选型:
| 应用场景 | 推荐模型 | 理由 |
|---|---|---|
| 电商批量文案(每天100条以上) | GLM-4 Flash | 量大,成本敏感,质量够用 |
| 商业提案/高端文档 | GLM-5.2 或 GLM-4 Plus | 质量优先 |
| 合同/简历信息提取 | GLM-5.2 | 结构化输出可靠 |
| 代码生成(用于工具开发) | GLM-5.2 | 代码正确性最优 |
| 图像生成工具 | CogView-4 | 唯一选择 |
| 多步骤自动化/Agent | GLM-5.2 | Function Calling支持最好 |
| 长文档(论文/报告/书籍)总结 | GLM-4 Long | 超长上下文 |
| 小红书/短视频脚本(中等质量) | GLM-4 Air | 性价比平衡 |
本课行动清单
- [ ] 根据你计划开发的第一个工具,确认应该使用哪个模型
- [ ] 写一段测试代码,用GLM-4 Flash和GLM-4 Plus分别生成同一段内容,对比质量差异
- [ ] 计算你计划工具的月运营成本:预计月调用次数 × 每次平均token数 × 单价
→ 继续阅读:第04课_文本类应用开发与接单.md