第 03 章 搭建你的视觉工厂:Hermes v0.8 与 Image 2.0 联调
第 03 章 搭建你的视觉工厂:Hermes v0.8 与 Image 2.0 联调
一、什么是视觉工厂?
"视觉工厂"不是一个软件,而是一套可重复执行的图像生产流水线。
工厂的特点:
- 相同的输入 → 相同质量的输出
- 批量生产,而不是手工制作
- 可以持续运行,不需要人盯着
传统设计师的工作方式是"手工作坊"——每张图都需要人工操作。视觉工厂把这个过程系统化:你只需要提供产品图和需求描述,工厂自动输出符合规格的图片。
Hermes v0.8 是这个"工厂"的自动化调度器,Image 2.0 是执行图像生成的"机器"。
二、核心工具与账号准备
必备工具清单
| 工具 | 用途 | 费用(月) |
|---|---|---|
| OpenAI API(gpt-image-1) | Image 2.0 出图 | $20-80(按量) |
| Hermes Agent v0.8 | 自动化流程编排 | $29-99 |
| VPS(可选) | 7×24小时运行 | ¥50-100 |
| 图床/CDN(可选) | 批量图片存储 | ¥20-50 |
最小化启动成本:¥250-400/月(不租 VPS 时,本地运行也可以)
获取 OpenAI API Key
- 访问 platform.openai.com
- 注册并绑定支付方式
- 在 API Keys 页面创建新的 Key
- 建议单独创建一个"电商视觉"用途的 Key,便于成本追踪
三、Hermes v0.8 基础配置
Hermes Agent v0.8 支持通过配置文件定义工作流。以下是一个最简单的"白底主图批量生成"配置:
# hermes-ecom-workflow.yml
workflow:
name: "白底主图批量生成"
input_dir: "./products" # 产品原图存放目录
output_dir: "./output/main" # 输出目录
steps:
- name: "生成白底主图"
model: "gpt-image-1"
prompt_template: |
Professional product photo of {product_name} on pure white background.
The product occupies 85% of the frame.
Shot from {angle} angle.
Studio lighting, high resolution, e-commerce ready.
variations:
angle: ["front", "45-degree", "top-down"]
output_format: "jpg"
size: "1024x1024"
四、第一个工作流:白底主图批量生成
Step 1:准备产品素材
在 ./products 目录下,为每个 SKU 创建一个子文件夹:
products/
SKU-001-蓝牙耳机/
reference.jpg # 产品实物参考图(可以是厂家图)
product_name.txt # 产品名称(英文)
SKU-002-手机支架/
reference.jpg
product_name.txt
Step 2:运行工作流
hermes run hermes-ecom-workflow.yml
Hermes 会自动遍历所有 SKU 文件夹,调用 Image 2.0 API,生成三个角度的白底图,保存到 ./output/main 目录。
Step 3:质检
打开 output 目录,抽查生成质量。如果某个 SKU 的图不理想,修改 prompt 模板后单独重跑:
hermes run hermes-ecom-workflow.yml --sku SKU-001-蓝牙耳机
五、第二个工作流:场景化主图批量生成
在白底主图的基础上,场景图需要额外的"场景库":
# hermes-scene-workflow.yml
scenes:
- "modern minimalist living room, natural light"
- "outdoor coffee table setup, morning sunlight"
- "home office desk setup, clean background"
- "kitchen counter with herbs, warm lighting"
workflow:
name: "场景化主图"
steps:
- name: "场景合成"
model: "gpt-image-1"
mode: "inpainting" # 使用图片编辑模式
base_image: "{sku}/white_bg_front.jpg"
prompt_template: |
Place this product naturally in: {scene}
Maintain exact product appearance.
Professional photography style.
variations:
scene: "{scenes}"
六、常见问题与解决方案
Q:生成的图片产品细节不够精准怎么办?
在 prompt 中增加更详细的产品描述:颜色、材质、关键特征。或者在 Inpainting 模式下,先用参考图锁定产品外观。
Q:不同批次的图片风格不一致?
在 Hermes 配置中加入 seed 固定参数(当 Image 2.0 支持时),或者在 prompt 中加入风格锚点词(如 “Sony A7 camera, studio lighting, consistent color grading”)。
Q:API 费用超预期?
Image 2.0 标准尺寸(1024×1024)约 $0.04 一张。建议先用小批量(每次 10 张)测试 prompt 效果,确认满意后再批量运行。
本章小结
- 视觉工厂 = 可重复的图像生产流水线,不是软件而是一套方法
- 核心工具:OpenAI API(Image 2.0)+ Hermes v0.8,启动成本约 ¥300/月
- 两个基础工作流:白底主图批量生成 + 场景化主图批量生成
- Hermes 配置文件(YAML)定义流程,一次配置多次复用
- 质检是关键步骤——不是所有 AI 输出都满足商用要求
核心行动: 今天申请 OpenAI API Key,跑通一个最简单的白底主图生成测试,哪怕只生成 3 张,感受整个流程。