第02章:选模型:国内外大模型的选择框架
第02章:选模型:国内外大模型的选择框架
一个初创AI产品在早期最重要的技术决策之一,就是选哪个大模型。不同的模型在能力、价格、合规性、稳定性上差异很大。选错了,要么产品体验差,要么被API账单烧死,要么面临合规风险。这一章给你一个清晰的选型框架。
本章核心问题
- 主流大模型的能力对比
- 国内合规场景的选型逻辑
- 不同任务类型的模型推荐
- 多模型策略的适用场景
2.1 主流大模型能力对比(2025年)
国际模型
OpenAI GPT-4o / GPT-4.1:
├── 综合能力:最强(特别是代码和结构化输出)
├── 价格:$5-$15 / 1M tokens(输入/输出价格不同)
├── 优势:稳定,生态最成熟,Function Calling支持完善
└── 限制:中国大陆网络访问需要特殊处理;数据合规存在争议
Anthropic Claude 3.5 / 3.7:
├── 综合能力:与GPT-4o相当,长文本处理略有优势
├── 价格:$3-$15 / 1M tokens
├── 优势:指令跟随好,安全护栏成熟,代码能力强
└── 限制:同OpenAI,网络和合规限制
Google Gemini 1.5 Pro / 2.0:
├── 综合能力:多模态强(图片/视频理解)
├── 价格:$1.25-$5 / 1M tokens
├── 优势:超长上下文(1M tokens),多模态处理好
└── 限制:中文能力略弱,中国大陆访问限制
国内模型(2025年,中国合规首选)
阿里通义千问(Qwen系列):
├── 代表模型:Qwen-Max / Qwen-Plus / Qwen-Long
├── 价格:$0.3-$2 / 1M tokens(比国际模型便宜50-90%)
├── 优势:中文优化好,有企业API,价格极低,阿里云生态集成
└── 适合:通用中文处理/代码辅助/文档处理
字节豆包(Doubao):
├── 代表模型:Doubao-Pro / Doubao-Lite
├── 价格:$0.1-$0.5 / 1M tokens(极低)
├── 优势:价格最低,响应速度快,字节生态
└── 适合:高频低价值请求/内容生成/对成本极敏感的场景
月之暗面(Kimi):
├── 代表模型:Moonshot-v1-128k / moonshot-v1-8k
├── 价格:$0.5-$3 / 1M tokens
├── 优势:128K超长上下文,文档处理强
└── 适合:长文档分析/合同审查/报告生成
百度文心(ERNIE):
├── 代表模型:ERNIE 4.0 / ERNIE Speed
├── 价格:$0.5-$2 / 1M tokens
├── 优势:百度生态集成,知识图谱强
└── 适合:有百度生态需求的场景/知识问答
2.2 选型决策框架
第一维度:合规要求
判断你的产品是否有数据出境限制:
需要数据100%留在国内的场景:
└── 医疗数据(《数据安全法》要求)
政务数据
金融客户数据
涉及个人敏感信息的大量处理
→ 必须使用国内模型(通义/豆包/文心/Kimi)
数据合规要求较低的场景:
└── 不涉及个人信息的内容生成
代码辅助(代码不属于个人信息)
公开信息的分析和摘要
→ 可以考虑国际模型(GPT/Claude),但需要评估风险
第二维度:任务类型
代码生成/代码审查:
└── 首选:GPT-4o(代码能力最强)
国内替代:通义千问Coder / 腾讯CodeWise
长文档处理(合同/报告/书籍):
└── 首选:Kimi moonshot-v1-128k(超长上下文)
或者:GPT-4 Turbo(128K上下文)
中文内容生成(营销文案/文章/对话):
└── 首选:通义千问-Max(中文优化好,价格实惠)
备选:豆包Pro
多模态(图片理解/OCR/视频分析):
└── 首选:GPT-4V / Claude 3 Vision
国内替代:通义千问VL(视觉理解)
结构化数据提取(从非结构化文本提取JSON):
└── 首选:GPT-4o(Function Calling最稳定)
国内替代:通义千问-Max + 精心设计的Prompt
第三维度:成本预算
成本估算框架:
假设你的AI产品每月有10,000次请求
每次请求平均输入2,000 tokens,输出500 tokens
国际模型成本(GPT-4o):
└── 输入:10,000 × 2,000 × $5/1M = $100/月
输出:10,000 × 500 × $15/1M = $75/月
总计:$175/月
国内模型成本(通义千问-Max):
└── 输入:10,000 × 2,000 × $1/1M = $20/月
输出:10,000 × 500 × $2/1M = $10/月
总计:$30/月
结论:
└── 同等请求量,国内模型成本约为国际模型的1/6
如果你的产品对成本敏感,国内模型是更好的选择
2.3 多模型策略
什么时候使用多个模型
场景1:主模型+降级模型
└── 主模型:GPT-4o(高质量)
降级模型:通义千问(当GPT-4o超时或出错时自动切换)
实现:
try:
response = openai.chat(model="gpt-4o", ...)
except Exception:
response = qwen.chat(model="qwen-max", ...)
场景2:不同任务用不同模型
└── 代码任务:GPT-4o
中文内容:通义千问
长文档:Kimi
在你的应用中根据任务类型路由到不同模型
可以显著降低成本同时保持质量
场景3:A/B测试模型
└── 50%用户用GPT-4o,50%用Claude
比较用户满意度和质量评分
数据驱动地决定最终选型
注意:
└── 不同模型的Prompt需要分别优化
在一个模型上调好的Prompt,不一定在另一个模型上有同等效果
2.4 本地部署 vs API调用
什么时候考虑本地部署
本地部署(Self-hosted):
适合场景:
├── 数据必须100%本地化(政府/军队/高度敏感数据)
├── 请求量极大(API成本远超硬件成本)
└── 需要深度定制(微调/特殊推理逻辑)
常用开源模型:
├── Llama 3(Meta开源,综合能力强)
├── Qwen2(阿里开源版,中文好)
└── Mistral(欧洲团队,轻量高效)
部署工具:
├── Ollama(本地运行,简单易用)
├── vLLM(高性能推理框架)
└── LM Studio(可视化界面,适合测试)
代价:
└── 需要GPU服务器(A100/H100)
需要运维人员
模型能力通常略低于最新API版本
结论:
└── 早期创业阶段,几乎都应该用API
本地部署是$1M+ ARR后的优化选项,不是起点
章节小结
- 国际模型能力最强,国内模型合规且便宜:根据数据合规要求做第一层筛选,再根据任务类型选模型
- 相同任务,国内模型成本约为国际模型的1/6:对成本敏感的场景,通义千问/豆包是更好的选择
- 多模型策略可以兼顾质量和成本:主模型+降级模型,或不同任务路由到不同模型
- GPT-4o在代码和结构化输出上最强,Kimi在长文档处理上有优势:不同任务选最合适的模型
- 早期创业阶段用API,本地部署是后期优化:不要过早投入GPU基础设施
行动推荐:今天注册通义千问(阿里云百炼)和OpenAI的API账号,每个账号各花$10做测试。设计一个你的核心业务场景的测试提示词,同时测试两个模型的输出质量和响应速度,然后做一个简单的成本计算。这是你选型决策的实证起点。
第03章预告:AI产品设计——从Demo到真正有用的产品。AI产品的核心体验设计原则,以及如何避免"AI噱头"陷阱。