第二章 AI眼睛:用机器读懂广告素材
第二章 AI眼睛:用机器读懂广告素材
“人类看广告图片,会被设计吸引;AI看广告图片,只看事实——文字在哪、颜色是什么、有没有人脸、产品放在哪。有时候,事实比感受更有价值。”
一、为什么广告图片需要被"读懂"
全球每年的数字广告投放中,图片广告占据了相当大的比例。Facebook、Instagram、TikTok、微信朋友圈……每一个平台,每天都有数以亿计的广告图片在展示。
这些图片,对广告情报系统来说,曾经是一个"哑数据"——你知道有这张图存在,知道它什么时候被投放,但不知道图片里有什么内容。
一旦你能"读懂"这张图片——提取其中的文字、理解视觉元素、分析画面构成——图片就从哑数据变成了富数据,可以被索引、被搜索、被分析、被对比。
这就是AI图像分析(OCR + 视觉理解)对广告情报系统的核心价值所在。
二、OCR:从像素到文字
OCR(光学字符识别)是广告图片分析的第一步。
广告图片通常包含文字——促销标语、产品名称、价格折扣、CTA(行动号召)。这些文字,是广告主最想让受众记住的信息,也是分析广告策略最直接的线索。
Market Vault的OCR设计,使用GPT-4o-mini(多模态视觉模型)来识别广告图片中的文字,并结构化输出三个字段:
main_text(主标题文字)
广告图片中最突出的文字——通常是最大的字体、最醒目的颜色、最重要的信息。例如:“BLACK FRIDAY SALE”、“限时8折”、“注册立享$50”。
提取main_text,让用户可以快速扫描大量广告,直接看到每条广告的核心诉求,而不需要一张一张地放大查看图片。
all_text(全部文字)
广告图片中所有可见文字的完整提取,用" | “分隔。这个字段服务于文本搜索场景——用户可以搜索"买一送一”,找到所有包含这个促销说法的竞品广告。
language(语言)
自动检测广告文字的语言(中文/英文/西班牙语等)。对于跨国品牌的广告研究,了解竞品在不同地区使用的语言版本,是一个有价值的信息维度。
成本的精妙平衡
Market Vault的OCR功能,经过了仔细的成本设计:
图片OCR:平均每次约$0.000455(不到0.05美分)
视频封面OCR:平均每次约$0.000461
视频多帧OCR(3帧):平均每次约$0.001365
情感分析附加:约$0.000042
广告分析附加:约$0.000168
一次完整的广告图片分析(OCR + 情感 + 广告质量评分),总成本约$0.0006——不到一厘钱。
这个成本结构,使得大规模的广告库分析成为经济可行的操作。一万条广告全部做AI分析,总成本约$6。
三、图像分析:超越文字的理解
OCR只提取了广告图片中的文字部分。但广告图片中,有很多信息不在文字里,而在视觉元素里:
- 这张图片里有没有人脸? 有人脸的广告,倾向于建立情感连接;无人脸的广告,通常更突出产品本身。
- 这张图片里有没有产品? 产品展示广告 vs 生活场景广告,代表不同的创意策略。
- 画面中的文字是如何布局的? headline在哪、offer在哪、CTA在哪——文字的层级关系反映了广告的信息优先级。
- 图片的整体内容是什么? 一句话描述这张图片,让不看图片的分析师也能快速理解内容。
Market Vault的图像分析(image_analysis)字段,正是为了捕捉这些非文字信息设计的:
image_analysis = {
overlays: [
{ role: "headline", text: "BLACK FRIDAY SALE" },
{ role: "offer", text: "Buy 2 Get 1 FREE" },
{ role: "cta", text: "Shop Now" },
{ role: "body", text: "+ Free Shipping" }
],
has_face: false,
has_product: true,
description: "白色背景的产品图,三款香水斜向排列,无人物。"
}
这个结构化输出,把一张图片里的视觉信息转化成了可被程序处理的数据。
四、overlays的商业价值:文字角色的分类
overlays字段的设计,是Market Vault图像分析最有商业价值的部分之一。
不只是提取"图片里有什么字",而是分析"每段文字在广告中扮演什么角色":
| 角色 | 含义 | 广告策略意义 |
|---|---|---|
| headline | 主标题,最显眼的文字 | 广告第一注意力点,品牌的核心主张 |
| offer | 优惠信息(折扣、赠品等) | 转化驱动力,促销力度 |
| cta | 行动号召(立即购买/点击了解等) | 转化路径设计 |
| body | 其他补充文字 | 二级信息,细节支撑 |
有了这个分类,就可以做一些过去无法做的分析:
分析竞品的headline策略:搜索同行所有广告的headline字段,看他们的主要诉求是什么(功能诉求?情感诉求?价格诉求?)
评估offer的力度:提取所有竞品广告的offer字段,判断促销力度的市场平均水平(是大家都在打8折,还是某个竞品在打5折?)
分析CTA的多样性:统计竞品使用的CTA文字,判断市场上最常见的行动号召是什么,以及是否有差异化的表达方式。
五、has_face和has_product的分析意义
这两个布尔字段看似简单,但提供了丰富的策略信号:
has_face的策略含义:
大量研究表明,有人脸的广告通常有更高的点击率(人类天生被人脸吸引)。但有人脸的广告制作成本更高,需要摄影棚、模特、后期处理。
当竞品的大量广告都使用has_face=true时,意味着这个行业是高度人性化、情感驱动的。当竞品主要使用has_face=false(产品图),意味着竞争更多在产品功能层面。
分析竞品广告库中has_face的比例,是快速判断"这个行业的广告文化"的有效指标。
has_product的策略含义:
展示产品的广告(has_product=true),通常服务于"产品认知"和"购买转化"目标。不展示产品的广告,通常更侧重"品牌建设"或"场景联想"。
竞品在品牌广告(无产品)和效果广告(有产品)之间的配比,反映了他们的营销投资结构。
六、视频封面的OCR:Hook文字的价值
对于视频广告,Market Vault支持两种OCR模式:
视频封面OCR:只分析视频的第一帧(封面图),提取封面文字。
多帧OCR:提取视频前几秒的多个关键帧,分析Hook阶段(0-3秒)的文字内容。
Hook阶段的文字,在视频广告中有特殊的战略价值:
用户在刷视频信息流时,平均在一条视频上的停留判断时间不超过1-2秒。视频的前3秒(Hook)决定了用户是否继续观看。
因此,竞品视频广告的Hook文字,是竞争情报中最有价值的信息之一:它直接揭示了竞品认为"最能在1秒内抓住目标受众注意力的信息是什么"。
多帧OCR(默认取0秒、1秒、2秒三帧)的设计,确保了即使视频的第一帧是黑屏或片头动画,也能捕捉到Hook阶段真正出现的文字内容。
七、图像分析的局限性与人机协作
尽管AI图像分析的能力已经很强,仍有几个重要的局限性需要了解:
局限一:艺术感和品牌调性的理解
AI可以识别图片里有一个红色的圆形,但无法像人类一样感受"这个红色让我联想到可口可乐的温暖感"。视觉审美和品牌调性,仍然是AI难以完全理解的维度。
局限二:上下文依赖的信息
广告图片的含义,有时候依赖于广告主的品牌背景和行业上下文。同样一张"人物拿着产品微笑"的图片,在不同品牌和行业的语境下,可能有完全不同的策略意图。
局限三:生成内容的误读
当广告图片中的文字使用了特殊字体、艺术化排版、或者文字和背景色对比度低,OCR的准确率会下降。
这些局限性提示我们:AI图像分析应该作为人类分析师的辅助工具,而不是替代工具。机器提取事实(文字、视觉元素),人类做判断(这些事实意味着什么?)——人机协作,才能发挥最大价值。
本章小结
AI图像分析把广告图片从"哑数据"变成了"富数据",使得大规模的广告内容理解成为可能。
核心能力:
- OCR提取文字:main_text(主诉求)、all_text(可搜索的全文)、language(语言)
- 视觉元素分析:has_face、has_product、overlays角色分类
- 内容描述:一句话描述,让无法看图的用户也能理解图片内容
这些能力的组合,让Market Vault可以回答一些过去靠人工无法回答的问题:
- 行业内广告图片的人脸比例是多少?
- 竞品最常用的促销说辞是什么?
- 哪些headline文字组合效果最好?
下一章,我们从图片转向视频,看AI如何"听懂"视频广告——视频转录和语音智能的商业价值。