第02章:选模型:国内外大模型的选择框架

第02章:选模型:国内外大模型的选择框架

一个初创AI产品在早期最重要的技术决策之一,就是选哪个大模型。不同的模型在能力、价格、合规性、稳定性上差异很大。选错了,要么产品体验差,要么被API账单烧死,要么面临合规风险。这一章给你一个清晰的选型框架。


本章核心问题

  • 主流大模型的能力对比
  • 国内合规场景的选型逻辑
  • 不同任务类型的模型推荐
  • 多模型策略的适用场景

2.1 主流大模型能力对比(2025年)

国际模型

OpenAI GPT-4o / GPT-4.1:
├── 综合能力:最强(特别是代码和结构化输出)
├── 价格:$5-$15 / 1M tokens(输入/输出价格不同)
├── 优势:稳定,生态最成熟,Function Calling支持完善
└── 限制:中国大陆网络访问需要特殊处理;数据合规存在争议

Anthropic Claude 3.5 / 3.7:
├── 综合能力:与GPT-4o相当,长文本处理略有优势
├── 价格:$3-$15 / 1M tokens
├── 优势:指令跟随好,安全护栏成熟,代码能力强
└── 限制:同OpenAI,网络和合规限制

Google Gemini 1.5 Pro / 2.0:
├── 综合能力:多模态强(图片/视频理解)
├── 价格:$1.25-$5 / 1M tokens
├── 优势:超长上下文(1M tokens),多模态处理好
└── 限制:中文能力略弱,中国大陆访问限制

国内模型(2025年,中国合规首选)

阿里通义千问(Qwen系列):
├── 代表模型:Qwen-Max / Qwen-Plus / Qwen-Long
├── 价格:$0.3-$2 / 1M tokens(比国际模型便宜50-90%)
├── 优势:中文优化好,有企业API,价格极低,阿里云生态集成
└── 适合:通用中文处理/代码辅助/文档处理

字节豆包(Doubao):
├── 代表模型:Doubao-Pro / Doubao-Lite
├── 价格:$0.1-$0.5 / 1M tokens(极低)
├── 优势:价格最低,响应速度快,字节生态
└── 适合:高频低价值请求/内容生成/对成本极敏感的场景

月之暗面(Kimi):
├── 代表模型:Moonshot-v1-128k / moonshot-v1-8k
├── 价格:$0.5-$3 / 1M tokens
├── 优势:128K超长上下文,文档处理强
└── 适合:长文档分析/合同审查/报告生成

百度文心(ERNIE):
├── 代表模型:ERNIE 4.0 / ERNIE Speed
├── 价格:$0.5-$2 / 1M tokens
├── 优势:百度生态集成,知识图谱强
└── 适合:有百度生态需求的场景/知识问答

2.2 选型决策框架

第一维度:合规要求

判断你的产品是否有数据出境限制:

需要数据100%留在国内的场景:
└── 医疗数据(《数据安全法》要求)
    政务数据
    金融客户数据
    涉及个人敏感信息的大量处理
    
    → 必须使用国内模型(通义/豆包/文心/Kimi)

数据合规要求较低的场景:
└── 不涉及个人信息的内容生成
    代码辅助(代码不属于个人信息)
    公开信息的分析和摘要
    
    → 可以考虑国际模型(GPT/Claude),但需要评估风险

第二维度:任务类型

代码生成/代码审查:
└── 首选:GPT-4o(代码能力最强)
    国内替代:通义千问Coder / 腾讯CodeWise

长文档处理(合同/报告/书籍):
└── 首选:Kimi moonshot-v1-128k(超长上下文)
    或者:GPT-4 Turbo(128K上下文)

中文内容生成(营销文案/文章/对话):
└── 首选:通义千问-Max(中文优化好,价格实惠)
    备选:豆包Pro

多模态(图片理解/OCR/视频分析):
└── 首选:GPT-4V / Claude 3 Vision
    国内替代:通义千问VL(视觉理解)

结构化数据提取(从非结构化文本提取JSON):
└── 首选:GPT-4o(Function Calling最稳定)
    国内替代:通义千问-Max + 精心设计的Prompt

第三维度:成本预算

成本估算框架:

假设你的AI产品每月有10,000次请求
每次请求平均输入2,000 tokens,输出500 tokens

国际模型成本(GPT-4o):
└── 输入:10,000 × 2,000 × $5/1M = $100/月
    输出:10,000 × 500 × $15/1M = $75/月
    总计:$175/月

国内模型成本(通义千问-Max):
└── 输入:10,000 × 2,000 × $1/1M = $20/月
    输出:10,000 × 500 × $2/1M = $10/月
    总计:$30/月

结论:
└── 同等请求量,国内模型成本约为国际模型的1/6
    如果你的产品对成本敏感,国内模型是更好的选择

2.3 多模型策略

什么时候使用多个模型

场景1:主模型+降级模型
└── 主模型:GPT-4o(高质量)
    降级模型:通义千问(当GPT-4o超时或出错时自动切换)
    
    实现:
    try:
        response = openai.chat(model="gpt-4o", ...)
    except Exception:
        response = qwen.chat(model="qwen-max", ...)

场景2:不同任务用不同模型
└── 代码任务:GPT-4o
    中文内容:通义千问
    长文档:Kimi
    
    在你的应用中根据任务类型路由到不同模型
    可以显著降低成本同时保持质量

场景3:A/B测试模型
└── 50%用户用GPT-4o,50%用Claude
    比较用户满意度和质量评分
    数据驱动地决定最终选型

注意:
└── 不同模型的Prompt需要分别优化
    在一个模型上调好的Prompt,不一定在另一个模型上有同等效果

2.4 本地部署 vs API调用

什么时候考虑本地部署

本地部署(Self-hosted):

适合场景:
├── 数据必须100%本地化(政府/军队/高度敏感数据)
├── 请求量极大(API成本远超硬件成本)
└── 需要深度定制(微调/特殊推理逻辑)

常用开源模型:
├── Llama 3(Meta开源,综合能力强)
├── Qwen2(阿里开源版,中文好)
└── Mistral(欧洲团队,轻量高效)

部署工具:
├── Ollama(本地运行,简单易用)
├── vLLM(高性能推理框架)
└── LM Studio(可视化界面,适合测试)

代价:
└── 需要GPU服务器(A100/H100)
    需要运维人员
    模型能力通常略低于最新API版本

结论:
└── 早期创业阶段,几乎都应该用API
    本地部署是$1M+ ARR后的优化选项,不是起点

章节小结

  1. 国际模型能力最强,国内模型合规且便宜:根据数据合规要求做第一层筛选,再根据任务类型选模型
  2. 相同任务,国内模型成本约为国际模型的1/6:对成本敏感的场景,通义千问/豆包是更好的选择
  3. 多模型策略可以兼顾质量和成本:主模型+降级模型,或不同任务路由到不同模型
  4. GPT-4o在代码和结构化输出上最强,Kimi在长文档处理上有优势:不同任务选最合适的模型
  5. 早期创业阶段用API,本地部署是后期优化:不要过早投入GPU基础设施

行动推荐:今天注册通义千问(阿里云百炼)和OpenAI的API账号,每个账号各花$10做测试。设计一个你的核心业务场景的测试提示词,同时测试两个模型的输出质量和响应速度,然后做一个简单的成本计算。这是你选型决策的实证起点。


第03章预告:AI产品设计——从Demo到真正有用的产品。AI产品的核心体验设计原则,以及如何避免"AI噱头"陷阱。