第三章　AI API生态：选型与集成策略

“不要和一个AI供应商结婚。和多个建立关系，但你的核心逻辑只依赖你自己的抽象。”

一、AI API生态的现状

2024年之前，AI API市场几乎是OpenAI一家独大。2024年之后，格局急剧变化：

OpenAI：GPT-4o系列，多模态理解的标杆，依然是LLM领域的参考标准
Anthropic：Claude系列，长上下文和代码生成领域表现出色
Google：Gemini系列，快速追赶，在多模态和长文档处理上有优势
图像生成专项：Stability AI（SDXL/SD3）、Black Forest Labs（FLUX系列）
视频生成：ByteDance（Seedance/Wan系列）、Minimax（Hailuo）、Kling
音频：OpenAI Whisper、ElevenLabs、PlayAI
多模型聚合平台：WaveSpeed、Replicate、Together AI、Fireworks AI

这个生态的变化速度极快。六个月前最好的图像生成模型，今天可能已经被新的开源模型超越。这意味着：你的系统必须设计成可以轻松切换模型的，而不是死绑一个供应商。

二、多模型聚合平台：WaveSpeed

传统集成方式：每个AI供应商写一套SDK、管理一个API Key、处理不同的请求/响应格式。集成10个供应商意味着10套逻辑。

多模型聚合平台的价值主张：一个API Key，访问所有模型。

WaveSpeed是这类平台中的代表。它的核心特点：

2.1 统一的模型访问接口

import wavespeed

# 所有模型，统一的调用方式
result = wavespeed.run(
    "bytedance/seedance-2.0/image-to-video",  # 模型路径
    {
        "image": "https://example.com/image.jpg",
        "prompt": "Camera slowly zooms in",
        "duration": 5,
    }
)

wavespeed.run()接受两个参数：模型路径（供应商/系列/具体模型）和参数dict。不管底层是OpenAI、ByteDance还是任何其他供应商，调用接口都是这一套。

2.2 WaveSpeed的主要模型家族

图像理解与生成：

模型	路径示例	典型用途
GPT Image 2	`openai/gpt-image-2`	高质量图像生成，OpenAI出品
FLUX Kontext	`black-forest-labs/flux-kontext-dev-ultra-fast`	极速图像生成，适合实时场景
Wan 2.7	`wan/wan-2.7/text-to-image`	中文生成优化，国内场景适配
Qwen Image 2	`qwen/qwen-image-2`	阿里出品，中文提示词优化

视频生成：

模型	路径示例	特点
Seedance 2.0	`bytedance/seedance-2.0/image-to-video`	ByteDance，高质量人物动效
Wan 2.7	`wan/wan-2.7/image-to-video`	运动轨迹控制，视频编辑
Minimax Hailuo 02	`minimax/hailuo-02`	长视频，叙事性内容
Kling O3	`kling/kling-o3`	物理仿真，真实感动效

语音与音频：

模型	路径示例	用途
OpenAI Whisper	`openai/whisper-large-v3`	音频转录，多语言

LLM（文本）：

WaveSpeed也聚合了主流LLM，但对于文本类任务，通常直接使用OpenAI/Anthropic官方SDK更稳定。

2.3 异步任务模式

视频生成需要30秒到几分钟，WaveSpeed提供轮询接口：

import wavespeed
import asyncio

async def generate_video_with_polling(
    image_url: str,
    prompt: str,
) -> str:
    """
    提交视频生成任务，轮询等待完成，返回视频URL
    """
    # 提交任务
    task = wavespeed.run(
        "bytedance/seedance-2.0/image-to-video",
        {
            "image": image_url,
            "prompt": prompt,
            "duration": 5,
        },
        wait=False,  # 不等待，立即返回task_id
    )
    
    task_id = task.id
    
    # 轮询状态
    max_wait = 300  # 最多等5分钟
    elapsed = 0
    interval = 5   # 每5秒轮询一次
    
    while elapsed < max_wait:
        await asyncio.sleep(interval)
        elapsed += interval
        
        status = wavespeed.get_task_status(task_id)
        
        if status.status == "completed":
            return status.output_url
        elif status.status == "failed":
            raise RuntimeError(f"Video generation failed: {status.error}")
        # status == "processing"，继续等待
    
    raise TimeoutError(f"Video generation timed out after {max_wait}s")

在实际生产中，轮询逻辑应该封装在Celery任务里，而不是在HTTP请求处理函数里阻塞等待。

三、OpenAI：直接集成的最佳实践

对于LLM文本处理和图像分析，OpenAI依然是首选直接集成的供应商。

3.1 客户端初始化

from openai import AsyncOpenAI
from functools import lru_cache

@lru_cache(maxsize=1)
def get_openai_client() -> AsyncOpenAI:
    """单例，避免重复创建HTTP连接"""
    return AsyncOpenAI(
        api_key=settings.openai_api_key,
        timeout=60.0,         # 总超时60秒
        max_retries=2,        # 自动重试2次
    )

3.2 图像分析（Vision）

async def analyze_image_with_openai(
    image_url: str,
    system_prompt: str,
    user_prompt: str,
    response_schema: type[BaseModel],
) -> BaseModel:
    """
    使用GPT-4o-mini分析图像，强制返回JSON格式
    """
    client = get_openai_client()
    
    response = await client.beta.chat.completions.parse(
        model="gpt-4o-mini",
        messages=[
            {
                "role": "system",
                "content": system_prompt,
            },
            {
                "role": "user",
                "content": [
                    {
                        "type": "image_url",
                        "image_url": {"url": image_url, "detail": "low"},
                    },
                    {
                        "type": "text",
                        "text": user_prompt,
                    },
                ],
            },
        ],
        response_format=response_schema,  # Pydantic模型作为schema
    )
    
    return response.choices[0].message.parsed

注意：使用client.beta.chat.completions.parse（Structured Outputs API）而不是json_mode。前者强制模型输出符合Pydantic schema的JSON，后者只是告诉模型"输出JSON"但不保证格式正确。

3.3 成本控制：使用情况追踪

async def call_with_cost_tracking(
    client: AsyncOpenAI,
    model: str,
    **kwargs
) -> tuple[Any, float]:
    """调用AI API并追踪成本"""
    response = await client.chat.completions.create(model=model, **kwargs)
    
    # 计算成本（示例价格，实际应从配置读取）
    PRICE_PER_1K_TOKENS = {
        "gpt-4o": {"input": 0.0025, "output": 0.010},
        "gpt-4o-mini": {"input": 0.000150, "output": 0.000600},
    }
    
    usage = response.usage
    price = PRICE_PER_1K_TOKENS.get(model, {"input": 0, "output": 0})
    cost_usd = (
        usage.prompt_tokens / 1000 * price["input"] +
        usage.completion_tokens / 1000 * price["output"]
    )
    
    return response, cost_usd

四、Anthropic Claude：长文档和代码场景

Claude在长文档理解和代码分析方面有独特优势。集成模式与OpenAI类似，但有几个差异：

from anthropic import AsyncAnthropic

async def analyze_with_claude(
    text: str,
    system: str,
) -> str:
    client = AsyncAnthropic(api_key=settings.anthropic_api_key)
    
    message = await client.messages.create(
        model="claude-haiku-4-5",    # 快速、低成本，适合分析任务
        max_tokens=1024,
        system=system,
        messages=[
            {"role": "user", "content": text}
        ]
    )
    
    return message.content[0].text

模型选择建议：

场景	推荐模型	理由
图像分析、快速分类	GPT-4o-mini	成本低、速度快、视觉能力强
复杂推理、代码生成	Claude Opus 4 / GPT-4o	能力强，适合复杂任务
长文档摘要（200K tokens）	Claude Sonnet	超长上下文支持
图像生成（实时）	FLUX via WaveSpeed	速度快，质量高
视频生成	Seedance/Wan via WaveSpeed	专项模型，效果最好
音频转录	Whisper via WaveSpeed	准确率高，多语言

五、构建供应商抽象层

不同供应商的API差异主要集中在：请求格式、响应结构、错误类型、计费单位。抽象层的目标是屏蔽这些差异：

from abc import ABC, abstractmethod
from dataclasses import dataclass

@dataclass
class TextGenerationResult:
    content: str
    model_version: str
    input_tokens: int
    output_tokens: int
    cost_usd: float

@dataclass
class ImageAnalysisResult:
    raw_response: dict
    model_version: str
    cost_usd: float

class AIProvider(ABC):
    """所有AI供应商的统一接口"""
    
    @abstractmethod
    async def generate_text(
        self,
        messages: list[dict],
        model: str,
        **kwargs,
    ) -> TextGenerationResult:
        ...
    
    @abstractmethod
    async def analyze_image(
        self,
        image_url: str,
        prompt: str,
        response_schema: type,
    ) -> ImageAnalysisResult:
        ...

class OpenAIProvider(AIProvider):
    """OpenAI实现"""
    
    async def generate_text(self, messages, model, **kwargs):
        response, cost = await call_with_cost_tracking(
            self._client, model, messages=messages, **kwargs
        )
        return TextGenerationResult(
            content=response.choices[0].message.content,
            model_version=response.model,
            input_tokens=response.usage.prompt_tokens,
            output_tokens=response.usage.completion_tokens,
            cost_usd=cost,
        )
    
    async def analyze_image(self, image_url, prompt, response_schema):
        # ... OpenAI Vision实现
        ...

class AnthropicProvider(AIProvider):
    """Anthropic实现"""
    
    async def generate_text(self, messages, model, **kwargs):
        # ... Claude实现，不同的SDK但同样的返回格式
        ...

供应商选择策略

生产环境中，供应商选择可以是动态的：

class AIRouter:
    """根据任务类型和可用性自动选择供应商"""
    
    async def route_text_generation(
        self,
        task_type: str,
        messages: list[dict],
        **kwargs,
    ) -> TextGenerationResult:
        
        # 根据任务类型选择最优供应商
        if task_type == "code_analysis":
            primary = self.anthropic
            fallback = self.openai
        else:
            primary = self.openai
            fallback = self.anthropic
        
        try:
            return await primary.generate_text(messages, **kwargs)
        except ProviderUnavailableError:
            # 主供应商不可用时，自动切换到备用
            logger.warning(f"Primary provider failed, falling back")
            return await fallback.generate_text(messages, **kwargs)

这个模式实现了自动降级（Graceful Degradation）——任何单一供应商的故障不会导致功能完全不可用。

六、错误处理的统一框架

不同供应商的错误有不同的类型，统一处理：

# 自定义异常体系
class AIError(Exception):
    """所有AI相关错误的基类"""
    def __init__(self, provider: str, original: Exception):
        self.provider = provider
        self.original = original

class AIRateLimitError(AIError):
    """速率限制，可以重试"""
    retry_after: int  # 建议等待秒数

class AIQuotaExceededError(AIError):
    """API配额耗尽，不可重试（需要联系供应商）"""

class AIModelUnavailableError(AIError):
    """模型临时不可用，可以切换到备用"""

class AIInvalidInputError(AIError):
    """输入不合法（如违规内容），不可重试"""

# 在Provider层转换异常
class OpenAIProvider(AIProvider):
    async def _handle_error(self, e: Exception) -> None:
        import openai
        if isinstance(e, openai.RateLimitError):
            raise AIRateLimitError("openai", e) from e
        elif isinstance(e, openai.AuthenticationError):
            raise AIInvalidInputError("openai", e) from e
        raise AIError("openai", e) from e

核心洞见

一个API Key访问所有模型是可能的——WaveSpeed等聚合平台用统一接口封装了几十个供应商的几百个模型。对于以媒体生成为主的AI SaaS，这是显著降低集成复杂度的选择。
Structured Outputs > JSON Mode > 自由生成——强制格式输出从根本上解决了AI输出解析的不可靠问题。能用Structured Outputs的地方，不用JSON Mode；能用JSON Mode的地方，不用自由文本再后处理。
供应商抽象层是前期投资，后期回报——多了两天实现时间，但换来了未来切换模型的能力，以及灾备降级的能力。在AI模型快速迭代的当下，这笔账值得算。
视频生成必须异步——30秒到5分钟的等待时间，在任何同步HTTP请求中都是不可接受的。WaveSpeed的轮询API应该包装成Celery任务。

下一章，我们深入Prompt工程的生产实践——如何让Prompt从"偶尔能用"变成"稳定可信赖"的生产组件。

第三章 AI API生态：选型与集成策略

第三章 AI API生态：选型与集成策略

一、AI API生态的现状

二、多模型聚合平台：WaveSpeed

2.1 统一的模型访问接口

2.2 WaveSpeed的主要模型家族

2.3 异步任务模式

三、OpenAI：直接集成的最佳实践

3.1 客户端初始化

3.2 图像分析（Vision）

3.3 成本控制：使用情况追踪

四、Anthropic Claude：长文档和代码场景

五、构建供应商抽象层

供应商选择策略

六、错误处理的统一框架

核心洞见

第三章　AI API生态：选型与集成策略

第三章　AI API生态：选型与集成策略