「眼」来助听：谷歌视觉-音频分离模型解决「鸡尾酒会效应」

雷锋网 AI 科技评论按：人类很擅长正在嘈杂的境遇下将其他非中心的声响「静音」化，从而将细心力纠集正在某个特定人物身上。这也即是一目了然的「鸡尾酒会效应」，这种才华是人类与生俱来的。然而，主动化语音星散编制—将音频信号星散至孤单的语音源—虽然这是一个仍旧被深刻探索过的题目，然则它仍然是揣测机编制探索上的一项伟大挑拨。

正在处理了「鸡尾酒会效应」的《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》论文中，谷歌团队供应了一个深度视觉-音频研习模子，来从其发声者音频和后台噪音的搀杂音频场景中，为特定的发声对象星散出一个成家的简单音频信号。正在此次操作中，谷歌仍旧不妨通过加强特定人物对象的音频，强迫其他非中心音频来揣测天生针对特定发声对象的简单音轨视频了。该形式实用于具有简单（主）音轨的常睹视频，用户也可能自行遴选聆听对象来天生对其的简单音轨，或者基于语境由算法实行对特定发声对象实行遴选。谷歌坚信这种视觉-音频语音识别星散技能具有普及的操纵场景，识别视频中的特定对象将其音频加强，非常是正在众人视频聚会的场景中对特定谈话人实行针对性音频加强。

这项技能的特别之处正在于，其通过贯串认识输入视频的音、视频信号来识别星散所需的简单音轨。直观来说，比方特定人物对象的音频与其发声时的嘴部行动联系联的，这也就助助模子编制划分哪一片面音频（轨）对应着哪一个特定对象。对视频中的视觉信号实行认识，不单不妨正在众种音频搀杂的场景下明显晋升语音识别星散质料（相较于只借助音频来实行特定对象语音星散），同时，加倍主要一点还正在于，它还能将星散后的纯净简单音轨与视频中的可视对象联络起来。

为了天生视觉-音频语音星散模子磨练样本，谷歌网罗了 Youtube 上高达 10 万份高质料学术以及演讲视频。团队从中提取了音频纯净的少少片断（比方无后台音乐，听众噪音以及其他发声者音频搅扰），这些视频片断中仅有一位可睹的发声对象。谷歌花费了约 2000 个小时从中剪辑出，无后台噪音搅扰，同时唯有简单可睹发声对象的视频数据，团队应用这份纯净的数据来天生「合成鸡尾酒会效应（synthetic cocktail parties）」—来日自星散视频源的脸部行动视频和对应的音频，以及从 AudioSet 获取的无后台噪音的视频搀杂正在沿途。

诈欺这些视频数据，咱们不妨磨练一个众流卷积神经搜集模子，为「合成鸡尾酒会场景搀杂体」片断中每个发声对象星散出对应音频流（音轨）。输入到视觉-音频搜集识别编制中的数据实在是指，视频每一帧中被检测到的发声对象的脸部行动缩略图中提取的视觉特点，以及视频音轨的频谱图讯息。正在模子的磨练进程中，搜集编制研习分散研习视觉和音频信号的编码，然后将它们调解成一个音频-视觉浮现。通过音频-视觉浮现，搜集编制学会了为每位发声对象对应输出时频掩码。输出的时频掩码与噪声输入频谱图相乘，随后转换成时域波形，从而为每一位发声对象天生孤单的，纯净的音频信号。更众周详内容，可能点击参考谷歌团队的论文《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》实行查看。

下面是几个谷歌团队通过最新视觉-音频语音星散技能完成的音频星散和加强的管制结果视频示例，视频中除所需的特定发声对象外，其他对象（后台）声响均被「静音」化已抵达所需效益。

为了夸大模子对视觉讯息的诈欺，谷歌从 Google CEO Sundar Pichai 的统一视频片断中截取了两段天差地别的片断，并将它们实行并排练示。正在这个场景下，仅运用音频中的特点语音频率是很难完成音频星散的，虽然正在如斯具有挑拨性的案例中，视觉-音频模子依旧能精确地星散视频中的音频。

本文的该形式也可操纵于语音识别和视频主动字幕加载。对待视频主动字幕加载编制而言，众名产生者同时发声导致的语音重叠情景是一项已知的挑拨，与此同时，将音频星散至差别的源也有助于吐露加倍正确和易读的字幕。

同时你也可能前去 YouTube 阅览本文中的同款视频并翻开字幕加载（cc 功用键），即可比力应用了视觉-音频语音识别星散技能的视频字幕识别和 YouTube 本来视频字幕加载编制浮现的分歧。

读者还可能正在谷歌视觉-音频语音识别星散项目 GitHub 联系页面查看更众的操纵场景，同时谷歌的视觉-音频语音识别星散技能与纯音频识别星散的视频结果示例比照，以及其他视觉-音频语音识别星散技能上最新进步。正在谷歌团队看来，该技能将具有加倍普及的操纵，团队也正在摸索将其整合进谷歌的其他产物中，以是敬请盼望吧！

别的，AI科技评论于4月初也编译Microsoft AI and Research 探索员的一篇诈欺众束深度吸引子搜集处理鸡尾酒派对题目的论文，周详内容可查看《微软探索员提超群束深度吸引子搜集，处理语音识别“鸡尾酒会题目”》。

清华刘洋团队论文：揭示为何 70B 的医疗模子，反而不如 8B 会问诊丨ILCR 2026

腾讯混元 x MBZUAI 港中文新探索：将纠错纳入政策空间，Search-R2 重构搜寻加强推理研习格式

清华刘知远团队论文：正在苛刻可控境遇下从头解答「深化研习能否教会大模子新才华」丨ICLR 2026

联系人：	王先生
电话：	15640228768
微信：	1735252255
地址：	沈阳市铁西区兴华南街58-6号

思陌产品

使用帮助

关于我们

资讯反馈

联系我们