第三章　听懂广告：视频转录与语音智能

“视频广告最有价值的内容，往往不在画面里，而在声音里。一个好的广告脚本，经过语音传递，才能真正触动人心。而AI转录，让这些声音第一次变得可以被大规模分析。”

一、视频广告的内容密度

在所有广告形式中，视频广告的信息密度最高。

一张图片广告可以传递：产品、标语、促销信息。

一个15秒的视频广告可以传递：产品演示、使用场景、用户证言、产品功能列表、品牌故事、情感诉求、以及明确的行动号召——所有这些，通过画面、文字叠加（字幕）和语音协同传递。

其中，语音是最容易被传统广告情报工具忽视的信息维度。

一个声优用充满情感的声音说出的广告文案，背后隐藏着：

广告主对核心用户痛点的判断（他们选择强调什么）
文案的节奏设计（哪里是停顿，哪里是高潮）
情感基调（紧迫感？温情？幽默？权威？）
产品的核心卖点排序（先说什么，后说什么）

通过AI语音转录，这些隐藏在声音中的策略信号，第一次可以被系统性地提取和分析。

二、视频转录的技术架构

Market Vault的视频转录系统，基于AssemblyAI的Universal-3-Pro模型构建，整体流程如下：

第一步：VAD检测（Voice Activity Detection）

在进行全量转录之前，系统首先用VAD（语音活动检测）快速判断这个视频是否有值得转录的语音内容。

VAD的逻辑：分析视频前30秒，计算语音帧的比例。如果语音帧比例低于8%（即视频主要是背景音乐，没有人说话），系统标记为"无有效语音"，跳过转录。

这个设计，避免了对纯背景音乐视频（如品牌形象广告）进行无意义的转录，节省了成本。

第二步：异步转录

通过AssemblyAI API发起转录请求，API返回一个任务ID。系统记录任务ID，异步轮询结果。

转录结果包含：

完整转录文本
检测到的语言
说话者数量（Speaker Count）
分说话者的分段文本（Utterances）：每段包含开始时间、结束时间、说话者标识、文字内容

第三步：结果存储

转录结果存储在Asset记录的transcription_*字段中：

transcription_status: completed / failed / vad_no_speech / no_audio_stream
transcription_text: 完整转录文本
transcription_language: 检测到的语言代码
transcription_speaker_count: 说话者数量
transcription_utterances: 分段文本JSON
transcription_audio_seconds: 实际转录的音频秒数
transcription_cost_usd: 本次转录成本

三、说话者分离的广告价值

很多人以为广告视频都是"一个人说话"，不需要说话者分离。实际上，广告视频中的多人对话是非常常见的创意形式：

用户证言（UGC）广告：真实用户分享使用体验，可能是1-2位用户交替说话
问答式广告：一问一答的对话形式，两个声音代表"消费者疑虑"和"品牌解答"
对比广告：展示用产品前后的对话，不同场景不同声音

当系统能够区分不同说话者，就可以分析：

这条广告用了几个不同的声音？（代表多少个"人物"）
哪个说话者的话更多？（谁是主要传播者）
对话的节奏是怎样的？（你来我往的交流，还是独白式叙述）

说话者分离数据，让广告脚本的结构分析成为可能。

四、视频广告的语音成本经济学

视频转录的成本，比图片OCR高一到两个数量级：

图片OCR：约$0.00046 / 次
视频转录（100秒视频）：约$0.01028 / 次
比例约为1:22

这个成本差异，意味着一个包含大量视频广告的数据库，如果全量做转录，成本会比图片OCR高出很多。

Market Vault的成本控制设计，体现了"精准投入"的原则：

设计一：转录功能默认关闭
不是对所有视频都做转录，而是允许用户选择哪些视频值得转录分析。

设计二：VAD前置过滤
通过VAD检测，自动跳过无语音内容的视频（如纯背景音乐的品牌广告），避免浪费成本。

设计三：广告视频长度限制
广告视频通常较短（15秒-60秒），Market Vault设计了最大转录时长限制（600秒，可调整为300秒），避免对超长视频进行高成本转录。

设计四：成本追踪
系统记录每次转录的成本（transcription_cost_usd字段），让运营团队可以实时监控总转录成本，及时调整策略。

五、AssemblyAI的附加能力：从转录到理解

纯粹的语音转文字，只是第一步。AssemblyAI提供的附加"语音理解"能力，让转录文本的价值进一步提升：

实体识别（Entity Detection）
在转录文本中识别品牌名、产品名、地点、人名等实体。例如，广告中说"在北京、上海的所有门店……“，系统可以自动提取"北京”、"上海"作为地点实体。

对广告情报分析，实体识别可以帮助：

自动提取竞品广告中提到的产品名称
识别广告针对的地区（区域性广告策略）
发现广告中提到的合作品牌（如"联名款"、"X×Y"合作）

关键词提取（Key Phrases）
从转录文本中提取最重要的短语。这可以帮助快速理解一条广告的核心卖点，而不需要读完全部文字。

主题检测（Topic Detection）
自动对广告进行主题分类（健康与美容/科技产品/生活方式/金融服务等）。这对于构建竞品广告的行业分类标签非常有用。

情感分析（Sentiment Analysis）
分析广告语音的情感倾向（积极/中性/负面）。注意这里的情感分析是基于语音内容的，与后续章节介绍的基于文案的情感分析有互补关系。

六、视频广告文案的"黄金结构"

通过大量视频广告的转录文本分析，可以发现高效率广告文案往往遵循某种结构模式。

最经典的是"AIDA框架"在视频广告中的体现：

第0-3秒：Attention（注意力捕捉）
    "你知道为什么90%的人……"
    "这个方法彻底改变了我的……"

第3-8秒：Interest（兴趣维持）
    介绍问题，引发共鸣
    "用完传统方法之后，我总是……"

第8-12秒：Desire（欲望激发）
    展示解决方案，强调独特价值
    "直到我发现了XX，才真正解决了……"

第12-15秒：Action（行动号召）
    "现在点击链接，首单立减……"

当系统能够对视频广告的每一秒建立转录文本和时间戳的映射（通过Utterances字段），就可以分析：

竞品的Hook（前3秒）用的是什么开场方式？
转化诉求（CTA）在视频的哪个时间点出现？
整体文案节奏是快节奏还是慢节奏？

这种"时序+内容"的结合分析，是视频广告智能分析的高级能力。

七、语音与图像的多模态融合

真正强大的视频广告分析，需要把语音转录和图像分析结合起来。

Market Vault的ad_analysis功能，已经在向这个方向演进：当分析一条视频广告的质量时，系统同时使用：

OCR文本（视频封面或多帧提取的文字）
转录文本（视频语音内容）

两个来源的文本信息合并分析，比单独分析其中任何一个都能提供更全面的广告质量评估。

举一个具体的例子：

一个广告视频，画面上只有简单的产品展示，没有明显文字（OCR结果较少）。但语音文案非常精彩，清晰地描述了问题-解决方案-行动号召。如果只看OCR，这条广告似乎缺乏文字信息；结合转录文本，才能看到完整的广告叙事。

反过来，有些广告视频用了大量字幕（OCR提取内容丰富），但语音只是背景解说，文案价值有限。这种"以图文为主，语音为辅"的广告风格，在短视频平台上（很多用户关闭声音浏览）特别常见。

识别广告的"主要信息渠道"（视觉文字 vs 语音），本身就是一个有商业价值的分析维度。

本章小结

视频转录把视频广告的语音内容从"不可见"变成了"可分析"。这开创了广告情报分析的新维度：

语音内容包含丰富的策略信号——广告主说了什么、怎么说的、强调了什么
说话者分离揭示广告的叙事结构——独白 vs 对话，不同的叙事风格
时间戳文本让"黄金结构"分析成为可能——Hook、Interest、Desire、Action各占几秒
多模态融合（语音+视觉）提供最完整的广告内容理解

对于广告情报系统，视频转录不只是"方便搜索"的功能，而是通往深度广告策略分析的关键入口。

下一章，我们介绍Market Vault最具商业价值的AI功能之一——广告质量评分体系，以及它如何量化"什么是一个好广告"。

第三章 听懂广告：视频转录与语音智能

第三章 听懂广告：视频转录与语音智能

一、视频广告的内容密度

二、视频转录的技术架构

三、说话者分离的广告价值

四、视频广告的语音成本经济学

五、AssemblyAI的附加能力：从转录到理解

六、视频广告文案的"黄金结构"

七、语音与图像的多模态融合

本章小结

第三章　听懂广告：视频转录与语音智能

第三章　听懂广告：视频转录与语音智能