第02章：选模型：国内外大模型的选择框架

一个初创AI产品在早期最重要的技术决策之一，就是选哪个大模型。不同的模型在能力、价格、合规性、稳定性上差异很大。选错了，要么产品体验差，要么被API账单烧死，要么面临合规风险。这一章给你一个清晰的选型框架。

本章核心问题

主流大模型的能力对比
国内合规场景的选型逻辑
不同任务类型的模型推荐
多模型策略的适用场景

2.1 主流大模型能力对比（2025年）

国际模型

OpenAI GPT-4o / GPT-4.1：
├── 综合能力：最强（特别是代码和结构化输出）
├── 价格：$5-$15 / 1M tokens（输入/输出价格不同）
├── 优势：稳定，生态最成熟，Function Calling支持完善
└── 限制：中国大陆网络访问需要特殊处理；数据合规存在争议

Anthropic Claude 3.5 / 3.7：
├── 综合能力：与GPT-4o相当，长文本处理略有优势
├── 价格：$3-$15 / 1M tokens
├── 优势：指令跟随好，安全护栏成熟，代码能力强
└── 限制：同OpenAI，网络和合规限制

Google Gemini 1.5 Pro / 2.0：
├── 综合能力：多模态强（图片/视频理解）
├── 价格：$1.25-$5 / 1M tokens
├── 优势：超长上下文（1M tokens），多模态处理好
└── 限制：中文能力略弱，中国大陆访问限制

国内模型（2025年，中国合规首选）

阿里通义千问（Qwen系列）：
├── 代表模型：Qwen-Max / Qwen-Plus / Qwen-Long
├── 价格：$0.3-$2 / 1M tokens（比国际模型便宜50-90%）
├── 优势：中文优化好，有企业API，价格极低，阿里云生态集成
└── 适合：通用中文处理/代码辅助/文档处理

字节豆包（Doubao）：
├── 代表模型：Doubao-Pro / Doubao-Lite
├── 价格：$0.1-$0.5 / 1M tokens（极低）
├── 优势：价格最低，响应速度快，字节生态
└── 适合：高频低价值请求/内容生成/对成本极敏感的场景

月之暗面（Kimi）：
├── 代表模型：Moonshot-v1-128k / moonshot-v1-8k
├── 价格：$0.5-$3 / 1M tokens
├── 优势：128K超长上下文，文档处理强
└── 适合：长文档分析/合同审查/报告生成

百度文心（ERNIE）：
├── 代表模型：ERNIE 4.0 / ERNIE Speed
├── 价格：$0.5-$2 / 1M tokens
├── 优势：百度生态集成，知识图谱强
└── 适合：有百度生态需求的场景/知识问答

2.2 选型决策框架

第一维度：合规要求

判断你的产品是否有数据出境限制：

需要数据100%留在国内的场景：
└── 医疗数据（《数据安全法》要求）
    政务数据
    金融客户数据
    涉及个人敏感信息的大量处理
    
    → 必须使用国内模型（通义/豆包/文心/Kimi）

数据合规要求较低的场景：
└── 不涉及个人信息的内容生成
    代码辅助（代码不属于个人信息）
    公开信息的分析和摘要
    
    → 可以考虑国际模型（GPT/Claude），但需要评估风险

第二维度：任务类型

代码生成/代码审查：
└── 首选：GPT-4o（代码能力最强）
    国内替代：通义千问Coder / 腾讯CodeWise

长文档处理（合同/报告/书籍）：
└── 首选：Kimi moonshot-v1-128k（超长上下文）
    或者：GPT-4 Turbo（128K上下文）

中文内容生成（营销文案/文章/对话）：
└── 首选：通义千问-Max（中文优化好，价格实惠）
    备选：豆包Pro

多模态（图片理解/OCR/视频分析）：
└── 首选：GPT-4V / Claude 3 Vision
    国内替代：通义千问VL（视觉理解）

结构化数据提取（从非结构化文本提取JSON）：
└── 首选：GPT-4o（Function Calling最稳定）
    国内替代：通义千问-Max + 精心设计的Prompt

第三维度：成本预算

成本估算框架：

假设你的AI产品每月有10,000次请求
每次请求平均输入2,000 tokens，输出500 tokens

国际模型成本（GPT-4o）：
└── 输入：10,000 × 2,000 × $5/1M = $100/月
    输出：10,000 × 500 × $15/1M = $75/月
    总计：$175/月

国内模型成本（通义千问-Max）：
└── 输入：10,000 × 2,000 × $1/1M = $20/月
    输出：10,000 × 500 × $2/1M = $10/月
    总计：$30/月

结论：
└── 同等请求量，国内模型成本约为国际模型的1/6
    如果你的产品对成本敏感，国内模型是更好的选择

2.3 多模型策略

什么时候使用多个模型

场景1：主模型+降级模型
└── 主模型：GPT-4o（高质量）
    降级模型：通义千问（当GPT-4o超时或出错时自动切换）
    
    实现：
    try:
        response = openai.chat(model="gpt-4o", ...)
    except Exception:
        response = qwen.chat(model="qwen-max", ...)

场景2：不同任务用不同模型
└── 代码任务：GPT-4o
    中文内容：通义千问
    长文档：Kimi
    
    在你的应用中根据任务类型路由到不同模型
    可以显著降低成本同时保持质量

场景3：A/B测试模型
└── 50%用户用GPT-4o，50%用Claude
    比较用户满意度和质量评分
    数据驱动地决定最终选型

注意：
└── 不同模型的Prompt需要分别优化
    在一个模型上调好的Prompt，不一定在另一个模型上有同等效果

2.4 本地部署 vs API调用

什么时候考虑本地部署

本地部署（Self-hosted）：

适合场景：
├── 数据必须100%本地化（政府/军队/高度敏感数据）
├── 请求量极大（API成本远超硬件成本）
└── 需要深度定制（微调/特殊推理逻辑）

常用开源模型：
├── Llama 3（Meta开源，综合能力强）
├── Qwen2（阿里开源版，中文好）
└── Mistral（欧洲团队，轻量高效）

部署工具：
├── Ollama（本地运行，简单易用）
├── vLLM（高性能推理框架）
└── LM Studio（可视化界面，适合测试）

代价：
└── 需要GPU服务器（A100/H100）
    需要运维人员
    模型能力通常略低于最新API版本

结论：
└── 早期创业阶段，几乎都应该用API
    本地部署是$1M+ ARR后的优化选项，不是起点

章节小结

国际模型能力最强，国内模型合规且便宜：根据数据合规要求做第一层筛选，再根据任务类型选模型
相同任务，国内模型成本约为国际模型的1/6：对成本敏感的场景，通义千问/豆包是更好的选择
多模型策略可以兼顾质量和成本：主模型+降级模型，或不同任务路由到不同模型
GPT-4o在代码和结构化输出上最强，Kimi在长文档处理上有优势：不同任务选最合适的模型
早期创业阶段用API，本地部署是后期优化：不要过早投入GPU基础设施

行动推荐：今天注册通义千问（阿里云百炼）和OpenAI的API账号，每个账号各花$10做测试。设计一个你的核心业务场景的测试提示词，同时测试两个模型的输出质量和响应速度，然后做一个简单的成本计算。这是你选型决策的实证起点。

第03章预告：AI产品设计——从Demo到真正有用的产品。AI产品的核心体验设计原则，以及如何避免"AI噱头"陷阱。