第二章　AI眼睛：用机器读懂广告素材

“人类看广告图片，会被设计吸引；AI看广告图片，只看事实——文字在哪、颜色是什么、有没有人脸、产品放在哪。有时候，事实比感受更有价值。”

一、为什么广告图片需要被"读懂"

全球每年的数字广告投放中，图片广告占据了相当大的比例。Facebook、Instagram、TikTok、微信朋友圈……每一个平台，每天都有数以亿计的广告图片在展示。

这些图片，对广告情报系统来说，曾经是一个"哑数据"——你知道有这张图存在，知道它什么时候被投放，但不知道图片里有什么内容。

一旦你能"读懂"这张图片——提取其中的文字、理解视觉元素、分析画面构成——图片就从哑数据变成了富数据，可以被索引、被搜索、被分析、被对比。

这就是AI图像分析（OCR + 视觉理解）对广告情报系统的核心价值所在。

二、OCR：从像素到文字

OCR（光学字符识别）是广告图片分析的第一步。

广告图片通常包含文字——促销标语、产品名称、价格折扣、CTA（行动号召）。这些文字，是广告主最想让受众记住的信息，也是分析广告策略最直接的线索。

Market Vault的OCR设计，使用GPT-4o-mini（多模态视觉模型）来识别广告图片中的文字，并结构化输出三个字段：

main_text（主标题文字）
广告图片中最突出的文字——通常是最大的字体、最醒目的颜色、最重要的信息。例如：“BLACK FRIDAY SALE”、“限时8折”、“注册立享$50”。

提取main_text，让用户可以快速扫描大量广告，直接看到每条广告的核心诉求，而不需要一张一张地放大查看图片。

all_text（全部文字）
广告图片中所有可见文字的完整提取，用" | “分隔。这个字段服务于文本搜索场景——用户可以搜索"买一送一”，找到所有包含这个促销说法的竞品广告。

language（语言）
自动检测广告文字的语言（中文/英文/西班牙语等）。对于跨国品牌的广告研究，了解竞品在不同地区使用的语言版本，是一个有价值的信息维度。

成本的精妙平衡

Market Vault的OCR功能，经过了仔细的成本设计：

图片OCR：平均每次约$0.000455（不到0.05美分）
视频封面OCR：平均每次约$0.000461
视频多帧OCR（3帧）：平均每次约$0.001365
情感分析附加：约$0.000042
广告分析附加：约$0.000168

一次完整的广告图片分析（OCR + 情感 + 广告质量评分），总成本约$0.0006——不到一厘钱。

这个成本结构，使得大规模的广告库分析成为经济可行的操作。一万条广告全部做AI分析，总成本约$6。

三、图像分析：超越文字的理解

OCR只提取了广告图片中的文字部分。但广告图片中，有很多信息不在文字里，而在视觉元素里：

这张图片里有没有人脸？ 有人脸的广告，倾向于建立情感连接；无人脸的广告，通常更突出产品本身。
这张图片里有没有产品？ 产品展示广告 vs 生活场景广告，代表不同的创意策略。
画面中的文字是如何布局的？ headline在哪、offer在哪、CTA在哪——文字的层级关系反映了广告的信息优先级。
图片的整体内容是什么？ 一句话描述这张图片，让不看图片的分析师也能快速理解内容。

Market Vault的图像分析（image_analysis）字段，正是为了捕捉这些非文字信息设计的：

image_analysis = {
  overlays: [
    { role: "headline", text: "BLACK FRIDAY SALE" },
    { role: "offer",    text: "Buy 2 Get 1 FREE" },
    { role: "cta",      text: "Shop Now" },
    { role: "body",     text: "+ Free Shipping" }
  ],
  has_face: false,
  has_product: true,
  description: "白色背景的产品图，三款香水斜向排列，无人物。"
}

这个结构化输出，把一张图片里的视觉信息转化成了可被程序处理的数据。

四、overlays的商业价值：文字角色的分类

overlays字段的设计，是Market Vault图像分析最有商业价值的部分之一。

不只是提取"图片里有什么字"，而是分析"每段文字在广告中扮演什么角色"：

角色	含义	广告策略意义
headline	主标题，最显眼的文字	广告第一注意力点，品牌的核心主张
offer	优惠信息（折扣、赠品等）	转化驱动力，促销力度
cta	行动号召（立即购买/点击了解等）	转化路径设计
body	其他补充文字	二级信息，细节支撑

有了这个分类，就可以做一些过去无法做的分析：

分析竞品的headline策略：搜索同行所有广告的headline字段，看他们的主要诉求是什么（功能诉求？情感诉求？价格诉求？）

评估offer的力度：提取所有竞品广告的offer字段，判断促销力度的市场平均水平（是大家都在打8折，还是某个竞品在打5折？）

分析CTA的多样性：统计竞品使用的CTA文字，判断市场上最常见的行动号召是什么，以及是否有差异化的表达方式。

五、has_face和has_product的分析意义

这两个布尔字段看似简单，但提供了丰富的策略信号：

has_face的策略含义：

大量研究表明，有人脸的广告通常有更高的点击率（人类天生被人脸吸引）。但有人脸的广告制作成本更高，需要摄影棚、模特、后期处理。

当竞品的大量广告都使用has_face=true时，意味着这个行业是高度人性化、情感驱动的。当竞品主要使用has_face=false（产品图），意味着竞争更多在产品功能层面。

分析竞品广告库中has_face的比例，是快速判断"这个行业的广告文化"的有效指标。

has_product的策略含义：

展示产品的广告（has_product=true），通常服务于"产品认知"和"购买转化"目标。不展示产品的广告，通常更侧重"品牌建设"或"场景联想"。

竞品在品牌广告（无产品）和效果广告（有产品）之间的配比，反映了他们的营销投资结构。

六、视频封面的OCR：Hook文字的价值

对于视频广告，Market Vault支持两种OCR模式：

视频封面OCR：只分析视频的第一帧（封面图），提取封面文字。
多帧OCR：提取视频前几秒的多个关键帧，分析Hook阶段（0-3秒）的文字内容。

Hook阶段的文字，在视频广告中有特殊的战略价值：

用户在刷视频信息流时，平均在一条视频上的停留判断时间不超过1-2秒。视频的前3秒（Hook）决定了用户是否继续观看。

因此，竞品视频广告的Hook文字，是竞争情报中最有价值的信息之一：它直接揭示了竞品认为"最能在1秒内抓住目标受众注意力的信息是什么"。

多帧OCR（默认取0秒、1秒、2秒三帧）的设计，确保了即使视频的第一帧是黑屏或片头动画，也能捕捉到Hook阶段真正出现的文字内容。

七、图像分析的局限性与人机协作

尽管AI图像分析的能力已经很强，仍有几个重要的局限性需要了解：

局限一：艺术感和品牌调性的理解

AI可以识别图片里有一个红色的圆形，但无法像人类一样感受"这个红色让我联想到可口可乐的温暖感"。视觉审美和品牌调性，仍然是AI难以完全理解的维度。

局限二：上下文依赖的信息

广告图片的含义，有时候依赖于广告主的品牌背景和行业上下文。同样一张"人物拿着产品微笑"的图片，在不同品牌和行业的语境下，可能有完全不同的策略意图。

局限三：生成内容的误读

当广告图片中的文字使用了特殊字体、艺术化排版、或者文字和背景色对比度低，OCR的准确率会下降。

这些局限性提示我们：AI图像分析应该作为人类分析师的辅助工具，而不是替代工具。机器提取事实（文字、视觉元素），人类做判断（这些事实意味着什么？）——人机协作，才能发挥最大价值。

本章小结

AI图像分析把广告图片从"哑数据"变成了"富数据"，使得大规模的广告内容理解成为可能。

核心能力：

OCR提取文字：main_text（主诉求）、all_text（可搜索的全文）、language（语言）
视觉元素分析：has_face、has_product、overlays角色分类
内容描述：一句话描述，让无法看图的用户也能理解图片内容

这些能力的组合，让Market Vault可以回答一些过去靠人工无法回答的问题：

行业内广告图片的人脸比例是多少？
竞品最常用的促销说辞是什么？
哪些headline文字组合效果最好？

下一章，我们从图片转向视频，看AI如何"听懂"视频广告——视频转录和语音智能的商业价值。

第二章 AI眼睛：用机器读懂广告素材

第二章 AI眼睛：用机器读懂广告素材

一、为什么广告图片需要被"读懂"

二、OCR：从像素到文字

成本的精妙平衡

三、图像分析：超越文字的理解

四、overlays的商业价值：文字角色的分类

五、has_face和has_product的分析意义

六、视频封面的OCR：Hook文字的价值

七、图像分析的局限性与人机协作

本章小结

第二章　AI眼睛：用机器读懂广告素材

第二章　AI眼睛：用机器读懂广告素材