第 03 章 搭建你的视觉工厂:Hermes v0.8 与 Image 2.0 联调

第 03 章 搭建你的视觉工厂:Hermes v0.8 与 Image 2.0 联调

一、什么是视觉工厂?

"视觉工厂"不是一个软件,而是一套可重复执行的图像生产流水线

工厂的特点:

  • 相同的输入 → 相同质量的输出
  • 批量生产,而不是手工制作
  • 可以持续运行,不需要人盯着

传统设计师的工作方式是"手工作坊"——每张图都需要人工操作。视觉工厂把这个过程系统化:你只需要提供产品图和需求描述,工厂自动输出符合规格的图片。

Hermes v0.8 是这个"工厂"的自动化调度器,Image 2.0 是执行图像生成的"机器"。


二、核心工具与账号准备

必备工具清单

工具 用途 费用(月)
OpenAI API(gpt-image-1) Image 2.0 出图 $20-80(按量)
Hermes Agent v0.8 自动化流程编排 $29-99
VPS(可选) 7×24小时运行 ¥50-100
图床/CDN(可选) 批量图片存储 ¥20-50

最小化启动成本:¥250-400/月(不租 VPS 时,本地运行也可以)

获取 OpenAI API Key

  1. 访问 platform.openai.com
  2. 注册并绑定支付方式
  3. 在 API Keys 页面创建新的 Key
  4. 建议单独创建一个"电商视觉"用途的 Key,便于成本追踪

三、Hermes v0.8 基础配置

Hermes Agent v0.8 支持通过配置文件定义工作流。以下是一个最简单的"白底主图批量生成"配置:

# hermes-ecom-workflow.yml
workflow:
  name: "白底主图批量生成"
  input_dir: "./products"        # 产品原图存放目录
  output_dir: "./output/main"    # 输出目录
  
  steps:
    - name: "生成白底主图"
      model: "gpt-image-1"
      prompt_template: |
        Professional product photo of {product_name} on pure white background.
        The product occupies 85% of the frame.
        Shot from {angle} angle.
        Studio lighting, high resolution, e-commerce ready.
      variations:
        angle: ["front", "45-degree", "top-down"]
      output_format: "jpg"
      size: "1024x1024"

四、第一个工作流:白底主图批量生成

Step 1:准备产品素材

./products 目录下,为每个 SKU 创建一个子文件夹:

products/
  SKU-001-蓝牙耳机/
    reference.jpg      # 产品实物参考图(可以是厂家图)
    product_name.txt   # 产品名称(英文)
  SKU-002-手机支架/
    reference.jpg
    product_name.txt

Step 2:运行工作流

hermes run hermes-ecom-workflow.yml

Hermes 会自动遍历所有 SKU 文件夹,调用 Image 2.0 API,生成三个角度的白底图,保存到 ./output/main 目录。

Step 3:质检

打开 output 目录,抽查生成质量。如果某个 SKU 的图不理想,修改 prompt 模板后单独重跑:

hermes run hermes-ecom-workflow.yml --sku SKU-001-蓝牙耳机

五、第二个工作流:场景化主图批量生成

在白底主图的基础上,场景图需要额外的"场景库":

# hermes-scene-workflow.yml
scenes:
  - "modern minimalist living room, natural light"
  - "outdoor coffee table setup, morning sunlight"  
  - "home office desk setup, clean background"
  - "kitchen counter with herbs, warm lighting"

workflow:
  name: "场景化主图"
  steps:
    - name: "场景合成"
      model: "gpt-image-1"
      mode: "inpainting"           # 使用图片编辑模式
      base_image: "{sku}/white_bg_front.jpg"
      prompt_template: |
        Place this product naturally in: {scene}
        Maintain exact product appearance.
        Professional photography style.
      variations:
        scene: "{scenes}"

六、常见问题与解决方案

Q:生成的图片产品细节不够精准怎么办?

在 prompt 中增加更详细的产品描述:颜色、材质、关键特征。或者在 Inpainting 模式下,先用参考图锁定产品外观。

Q:不同批次的图片风格不一致?

在 Hermes 配置中加入 seed 固定参数(当 Image 2.0 支持时),或者在 prompt 中加入风格锚点词(如 “Sony A7 camera, studio lighting, consistent color grading”)。

Q:API 费用超预期?

Image 2.0 标准尺寸(1024×1024)约 $0.04 一张。建议先用小批量(每次 10 张)测试 prompt 效果,确认满意后再批量运行。


本章小结

  1. 视觉工厂 = 可重复的图像生产流水线,不是软件而是一套方法
  2. 核心工具:OpenAI API(Image 2.0)+ Hermes v0.8,启动成本约 ¥300/月
  3. 两个基础工作流:白底主图批量生成 + 场景化主图批量生成
  4. Hermes 配置文件(YAML)定义流程,一次配置多次复用
  5. 质检是关键步骤——不是所有 AI 输出都满足商用要求

核心行动: 今天申请 OpenAI API Key,跑通一个最简单的白底主图生成测试,哪怕只生成 3 张,感受整个流程。