第三章 听懂广告:视频转录与语音智能
第三章 听懂广告:视频转录与语音智能
“视频广告最有价值的内容,往往不在画面里,而在声音里。一个好的广告脚本,经过语音传递,才能真正触动人心。而AI转录,让这些声音第一次变得可以被大规模分析。”
一、视频广告的内容密度
在所有广告形式中,视频广告的信息密度最高。
一张图片广告可以传递:产品、标语、促销信息。
一个15秒的视频广告可以传递:产品演示、使用场景、用户证言、产品功能列表、品牌故事、情感诉求、以及明确的行动号召——所有这些,通过画面、文字叠加(字幕)和语音协同传递。
其中,语音是最容易被传统广告情报工具忽视的信息维度。
一个声优用充满情感的声音说出的广告文案,背后隐藏着:
- 广告主对核心用户痛点的判断(他们选择强调什么)
- 文案的节奏设计(哪里是停顿,哪里是高潮)
- 情感基调(紧迫感?温情?幽默?权威?)
- 产品的核心卖点排序(先说什么,后说什么)
通过AI语音转录,这些隐藏在声音中的策略信号,第一次可以被系统性地提取和分析。
二、视频转录的技术架构
Market Vault的视频转录系统,基于AssemblyAI的Universal-3-Pro模型构建,整体流程如下:
第一步:VAD检测(Voice Activity Detection)
在进行全量转录之前,系统首先用VAD(语音活动检测)快速判断这个视频是否有值得转录的语音内容。
VAD的逻辑:分析视频前30秒,计算语音帧的比例。如果语音帧比例低于8%(即视频主要是背景音乐,没有人说话),系统标记为"无有效语音",跳过转录。
这个设计,避免了对纯背景音乐视频(如品牌形象广告)进行无意义的转录,节省了成本。
第二步:异步转录
通过AssemblyAI API发起转录请求,API返回一个任务ID。系统记录任务ID,异步轮询结果。
转录结果包含:
- 完整转录文本
- 检测到的语言
- 说话者数量(Speaker Count)
- 分说话者的分段文本(Utterances):每段包含开始时间、结束时间、说话者标识、文字内容
第三步:结果存储
转录结果存储在Asset记录的transcription_*字段中:
transcription_status: completed / failed / vad_no_speech / no_audio_stream
transcription_text: 完整转录文本
transcription_language: 检测到的语言代码
transcription_speaker_count: 说话者数量
transcription_utterances: 分段文本JSON
transcription_audio_seconds: 实际转录的音频秒数
transcription_cost_usd: 本次转录成本
三、说话者分离的广告价值
很多人以为广告视频都是"一个人说话",不需要说话者分离。实际上,广告视频中的多人对话是非常常见的创意形式:
- 用户证言(UGC)广告:真实用户分享使用体验,可能是1-2位用户交替说话
- 问答式广告:一问一答的对话形式,两个声音代表"消费者疑虑"和"品牌解答"
- 对比广告:展示用产品前后的对话,不同场景不同声音
当系统能够区分不同说话者,就可以分析:
- 这条广告用了几个不同的声音?(代表多少个"人物")
- 哪个说话者的话更多?(谁是主要传播者)
- 对话的节奏是怎样的?(你来我往的交流,还是独白式叙述)
说话者分离数据,让广告脚本的结构分析成为可能。
四、视频广告的语音成本经济学
视频转录的成本,比图片OCR高一到两个数量级:
图片OCR:约$0.00046 / 次
视频转录(100秒视频):约$0.01028 / 次
比例约为1:22
这个成本差异,意味着一个包含大量视频广告的数据库,如果全量做转录,成本会比图片OCR高出很多。
Market Vault的成本控制设计,体现了"精准投入"的原则:
设计一:转录功能默认关闭
不是对所有视频都做转录,而是允许用户选择哪些视频值得转录分析。
设计二:VAD前置过滤
通过VAD检测,自动跳过无语音内容的视频(如纯背景音乐的品牌广告),避免浪费成本。
设计三:广告视频长度限制
广告视频通常较短(15秒-60秒),Market Vault设计了最大转录时长限制(600秒,可调整为300秒),避免对超长视频进行高成本转录。
设计四:成本追踪
系统记录每次转录的成本(transcription_cost_usd字段),让运营团队可以实时监控总转录成本,及时调整策略。
五、AssemblyAI的附加能力:从转录到理解
纯粹的语音转文字,只是第一步。AssemblyAI提供的附加"语音理解"能力,让转录文本的价值进一步提升:
实体识别(Entity Detection)
在转录文本中识别品牌名、产品名、地点、人名等实体。例如,广告中说"在北京、上海的所有门店……“,系统可以自动提取"北京”、"上海"作为地点实体。
对广告情报分析,实体识别可以帮助:
- 自动提取竞品广告中提到的产品名称
- 识别广告针对的地区(区域性广告策略)
- 发现广告中提到的合作品牌(如"联名款"、"X×Y"合作)
关键词提取(Key Phrases)
从转录文本中提取最重要的短语。这可以帮助快速理解一条广告的核心卖点,而不需要读完全部文字。
主题检测(Topic Detection)
自动对广告进行主题分类(健康与美容/科技产品/生活方式/金融服务等)。这对于构建竞品广告的行业分类标签非常有用。
情感分析(Sentiment Analysis)
分析广告语音的情感倾向(积极/中性/负面)。注意这里的情感分析是基于语音内容的,与后续章节介绍的基于文案的情感分析有互补关系。
六、视频广告文案的"黄金结构"
通过大量视频广告的转录文本分析,可以发现高效率广告文案往往遵循某种结构模式。
最经典的是"AIDA框架"在视频广告中的体现:
第0-3秒:Attention(注意力捕捉)
"你知道为什么90%的人……"
"这个方法彻底改变了我的……"
第3-8秒:Interest(兴趣维持)
介绍问题,引发共鸣
"用完传统方法之后,我总是……"
第8-12秒:Desire(欲望激发)
展示解决方案,强调独特价值
"直到我发现了XX,才真正解决了……"
第12-15秒:Action(行动号召)
"现在点击链接,首单立减……"
当系统能够对视频广告的每一秒建立转录文本和时间戳的映射(通过Utterances字段),就可以分析:
- 竞品的Hook(前3秒)用的是什么开场方式?
- 转化诉求(CTA)在视频的哪个时间点出现?
- 整体文案节奏是快节奏还是慢节奏?
这种"时序+内容"的结合分析,是视频广告智能分析的高级能力。
七、语音与图像的多模态融合
真正强大的视频广告分析,需要把语音转录和图像分析结合起来。
Market Vault的ad_analysis功能,已经在向这个方向演进:当分析一条视频广告的质量时,系统同时使用:
- OCR文本(视频封面或多帧提取的文字)
- 转录文本(视频语音内容)
两个来源的文本信息合并分析,比单独分析其中任何一个都能提供更全面的广告质量评估。
举一个具体的例子:
一个广告视频,画面上只有简单的产品展示,没有明显文字(OCR结果较少)。但语音文案非常精彩,清晰地描述了问题-解决方案-行动号召。如果只看OCR,这条广告似乎缺乏文字信息;结合转录文本,才能看到完整的广告叙事。
反过来,有些广告视频用了大量字幕(OCR提取内容丰富),但语音只是背景解说,文案价值有限。这种"以图文为主,语音为辅"的广告风格,在短视频平台上(很多用户关闭声音浏览)特别常见。
识别广告的"主要信息渠道"(视觉文字 vs 语音),本身就是一个有商业价值的分析维度。
本章小结
视频转录把视频广告的语音内容从"不可见"变成了"可分析"。这开创了广告情报分析的新维度:
- 语音内容包含丰富的策略信号——广告主说了什么、怎么说的、强调了什么
- 说话者分离揭示广告的叙事结构——独白 vs 对话,不同的叙事风格
- 时间戳文本让"黄金结构"分析成为可能——Hook、Interest、Desire、Action各占几秒
- 多模态融合(语音+视觉)提供最完整的广告内容理解
对于广告情报系统,视频转录不只是"方便搜索"的功能,而是通往深度广告策略分析的关键入口。
下一章,我们介绍Market Vault最具商业价值的AI功能之一——广告质量评分体系,以及它如何量化"什么是一个好广告"。