成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
Meta再放大招!VR新模型登CVPR Oral:像人一样「读」懂语音
2022 年 7 月 1 日
新智元
新智元报道
编辑:David Joey 如願
【新智元导读】
畅游元宇宙,连音画不匹配那还算VR?Meta最近就盯上了这个问题。
|人工智能企业在找落地场景?——智能技术企业科技信用评级共识体系发布会7月2日给你解答!
一提到AR、VR体验,声音体验都是最重要的一环。
无论是在元宇宙的party上狂欢,还是戴着增强现实 (AR) 眼镜在客厅看家庭电影,声效对用户的沉浸式体验都至关重要。
这不,Meta AI与Meta Reality Lab的音频专家联手,并与德克萨斯大学奥斯汀分校的研究人员合作,共同推出三个开源模型,用于对视频中人声和环境声的同步解析。
「我们正尝试建立这样的MR与VR场景,我们相信人工智能将为每个沉浸式环境提供相匹配的音质」他们说。
人体所处的物理环境不同,人耳所感知的声觉效果也不同。
例如,音乐会在大型场地和客厅的声音有很大的不同。这是因为物理空间的几何形状、该区域的材料和表面,以及声音来自何处的接近度,都影响了我们听到音频的方式。
因此,就需要AI模型来了解我们的环境信息,从而对声觉与视觉信息进行匹配。
Meta的这项研究主要包括三个模型,分别是视觉声觉匹配模型(Visual Acoustic Matching model)、基于视觉的去混响模型(Visually-Informed Dereverberation)、音视频分离模型(Visual Voice)。
同时,这次研究成果还在CVPR 2022论坛上发表5分钟演讲,这也就是TOP5含金量的论文才有这待遇。
首先,视觉声觉匹配模型可将视频中的音频转换为目标环境中的声觉效果,给定目标环境的图像和源音频的波形,模型就可以重新合成音频以匹配目标房间的声学。
然后就是我们基于视觉的音频去混响模型 (VIDA),它可根据观察到的声音和视觉场景来学习消除混响。
而Visual Voice模型则可跨模型将视频中的音频与视频分离。
下面是这些模型的具体操作流程。
视觉和声音的完美盛宴
众所周知,音频与场景不一致的视频,会十分损伤我们的
感知。
在过去,从不同的环境中获取音频和视频,并进行匹配,一直是一个挑战。
声学仿真模型可用于生成房间脉冲响应,以重新创建房间的声学效果,但这只有在几何形状(通常以 3D 网格的形式)和空间的材料属性已知的情况下才能完成。不过,在大多数情况下,这些信息是无从获取的。
当然,我们也可以仅根据在特定房间中捕获的音频来估计声学特性,但通过这种方式,只能获取十分有限的声学信息,而且通常不会产生很好的结果。
为了解决这些挑战,研究人员创建了一个自监督的视觉声学匹配模型,称为AViTAR。
它可以调整音频,以匹配目标图像的空间。研究人员使用了一个跨模态Transformer模型,其中输入由图像和音频组成,允许Transformer执行跨模态推理,并生成与视觉输入匹配的真实音频输出。
自监督训练目标从外部网络视频中学习声学匹配,尽管它们缺乏声学不匹配的音频和未标记的数据。
研究人员使用两个数据集构建了这个任务。第一个数据集是建立在与SoundSpaces合作的基础上,SoundSpaces是他们在2020年开放的AI视听平台。
建立在AI Habitat之上,SoundSpaces可以将来自「Replica」和「Matterport3D」数据集中的高保真、逼真的声源模拟,插入到各种真实世界中。
第二个数据集由29万段公开的英语视频组成,这些视频剪辑的内容是人们进行的3到10秒讲话。
对于这两个数据集,研究人员更专注室内环境下的语音。因为这些语音中的大部分可能与未来的很多场景用例相关,同时也因为人类对混响会如何影响语音有很强的先验知识,
研究人员将「麦克风和摄像机需要放在一起,并且远离声源」作为筛选视频的标准。因为根据声源的位置以及人或麦克风所在的位置,听到的声音可能会有所不同。
对于网络视频,研究人员必须克服的一个挑战是:他们只有与目标环境的声学相匹配的音频。
因此引入「失配」的概念,即首先消除混响。再将音频与另一个环境的脉冲响应混合在一起以随机化音效,并添加噪音以创建具有相同内容但不同音效的音频。
研究人员在两个数据集上验证了这个模型,并根据三个标准测量了生成音频的质量,包括它是否最接近真实音频、房间声学的正确性以及合成语音中保留的语音质量。
同时,他们也想看看人类是如何评价该模型的表现,评估的标准是「音响效果是否与参考图像匹配」。
结果表明,该模型成功地将人类语音转换为图像中描绘的各种真实世界场景,而且优于传统的纯音频声学匹配。
对于视觉声学匹配,研究者们感兴趣的话题之一是重温过去的记忆。想象一下,如果能够戴上一副AR眼镜,记忆中经历过的场景就会悄然地浮现在眼前。
比如拿起一件芭蕾舞裙,就能看到孩子芭蕾舞演出的全息图。音频消除了混响,听起来就像您在观众席的确切座位上所经历的那样。
真是妙不可言!
利用视觉信息,去除混响
下一个问题是,去混响。
尽管有些场景下,增加一些混响音效有助于让声音和视觉信息更加匹配,但在语音识别领域,更常见的做法是去混响。
混响会在环境中的表面和物体间反射,这种反射的后果反映在人的耳朵里,就是音质降低,而且会严重影响自动语音识别的精度。
通过去混响,可以尽量剥离环境影响,使语音更容易被识别和增强,比如,为有听力障碍的人生成更准确的字幕,就需要对音源进行去混响处理。
过去的去混响方法往往根据音频模式进行,这种方法并不能了解环境的完整声学特征。更多靠的是人类语音的先验知识,而没有考虑到周围的环境。
为了让这一过程与周围环境结合,需要融入更多的维度的信息,比如视觉信息。
结合了视觉信息的去混响模型称为「VIDA」, 根据观察到的声音和视觉流来学习去混响,这些视觉信息包括房间的几何形状、材料和音源位置等,这些都会影响在音频流中体现的混响效果。
有了这个思路,我们想从一个特定的地方获取混响的音频,并抽离房间的声效。
研究人员开发了一个大规模的训练数据集,使用真实的语音进行渲染。
通过虚拟和真实的图像上的演示表明,在语音增强、语音识别和说话人识别等任务上,VIDA实现了SOTA性能,比传统的纯音频方法有了很大的提升。这对AR和VR应用中建立现实体验是非常重要的。
VisualVoice:通过看和听,理解语音
在复杂环境下,人类比AI更能理解语音的含义,因为我们不仅使用耳朵,还使用眼睛。
例如,我们看到某人的嘴在动,可能凭直觉就知道我们听到的声音一定是来自这个人。
Meta AI正在研究新的AI对话系统,就是要让AI也学会这种本事,识别在对话中看到的和听到的东西之间的细微关联。
VisualVoice的学习方式类似于人类学习掌握新技能的方式,通过从未标记的视频中学习视觉和听觉线索,实现视听语音分离。
对于机器来说,这创造了更好的感知,同时人类的感知力也会得到改善。
想象一下,能够与来自世界各地的同事一起参加元宇宙中的小组会议,随着他们在虚拟空间中的移动,加入更小的小组会议,期间,场景中的声音混响和音色会根据环境做出相应调整。
的确,现在的AI 模型在视频和图像理解方面做得很好。
但要让用户有「很哇塞」声如其境的体验,我们需要「多模式的 AI 模型」。
也就是可同时获取音频、视频和文本信息,并更具有丰富的环境理解的模型。
目前AViTAR 和 VIDA 目前仅支持单个图像,离推向市场还存在距离。
「未来我们希望尝试使用视频和其他动态来捕捉空间的声学特性。这将帮助我们更接近我们的目标,即创建了解现实世界环境以及人们如何体验它们的多模式 AI」。
相关论文地址:
https://vision.cs.utexas.edu/projects/visual-acoustic-matching/
https://vision.cs.utexas.edu/projects/learning-audio-visual-dereverberation/
https://vision.cs.utexas.edu/projects/VisualVoice/
参考资料:
https://ai.facebook.com/blog/ai-driven-acoustic-synthesis-for-augmented-and-virtual-reality-experiences/
https://siliconangle.com/2022/06/24/meta-building-better-ai-driven-audio-virtual-reality/
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
混响
关注
0
【ACL 2022】MIT——人工智能系统跨视频、音频和文本共享的学习概念:跨模态离散表征学习
专知会员服务
23+阅读 · 2022年5月6日
【CVPR 2022】一种无需使用负样本的自监督学习方法,Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes
专知会员服务
14+阅读 · 2022年3月12日
近期必读的6篇顶会CVPR 2021【对抗攻击】相关论文和代码
专知会员服务
49+阅读 · 2021年7月10日
【伯克利博士论文】面向深度图像合成的机器学习,155页pdf
专知会员服务
34+阅读 · 2021年5月26日
【CVPR 2021】姿态可控的语音驱动说话人脸
专知会员服务
15+阅读 · 2021年5月13日
CVPR 2021 Oral | 室内动态场景中的相机重定位
专知会员服务
15+阅读 · 2021年4月12日
【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督,Cross-modal Supervision
专知会员服务
23+阅读 · 2020年3月31日
【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成,SynSin-View Synthesis
专知会员服务
28+阅读 · 2020年3月26日
谷歌提出“T5” 新NLP模型,突破迁移学习局限,多基准测试达SOTA!
专知会员服务
40+阅读 · 2020年2月26日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
专知会员服务
93+阅读 · 2019年10月18日
小扎下血本!Meta专为元宇宙搞了个AI模型
新智元
0+阅读 · 2022年7月28日
CVPR 2022 | 视频Transformer自监督预训练新范式,复旦、微软云AI实现视频识别新SOTA
机器之心
0+阅读 · 2022年4月23日
CVPR 2022 | 5秒手机猫片也能重建猫咪3D模型!Meta提出BANMo:为变形物体3D重建
CVer
1+阅读 · 2022年3月9日
5秒手机猫片也能重建猫咪3D模型,Meta提出新算法为变形物体建模 | CVPR 2022
量子位
1+阅读 · 2022年3月4日
LeCun看了都说好!Meta AI一次搞定语音、视觉和文本三个SOTA
新智元
1+阅读 · 2022年2月15日
Meta AI推出“杂食者”:一个模型搞定图像、视频和3D数据三大分类任务,性能还不输独立模型
量子位
0+阅读 · 2022年1月24日
嘈杂场景语音识别准确率怎么提?脸书:看嘴唇
量子位
0+阅读 · 2022年1月10日
戴着眼镜算什么?元宇宙核心是AR世界
新智元
0+阅读 · 2021年12月31日
AI版「女娲」来了!文字生成图像、视频,8类任务一个模型搞定
THU数据派
3+阅读 · 2021年11月26日
CVPR2019 oral | 这个面部3D重建模型,造出了6000多个名人的数字面具
极市平台
27+阅读 · 2019年3月9日
基于神经网络的跨语言实体链指研究
国家自然科学基金
4+阅读 · 2015年12月31日
基于压缩感知的高精度实时视觉跟踪方法研究
国家自然科学基金
3+阅读 · 2015年12月31日
基于压缩感知理论的视频编解码技术研究
国家自然科学基金
1+阅读 · 2014年12月31日
语音及情感语义同步的三维人脸可视化:从发声器官到外观
国家自然科学基金
3+阅读 · 2014年12月31日
基于HEVC的多视点视频加深度三维视频编码快速算法研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于视觉感知的场景再现技术研究
国家自然科学基金
0+阅读 · 2012年12月31日
基于情感上下文的视觉语音多模态协同情感分析方法研究
国家自然科学基金
4+阅读 · 2012年12月31日
基于三维视觉及形状匹配的全自由度自然手势识别
国家自然科学基金
0+阅读 · 2012年12月31日
基于视频语义理解的艺术风格化研究
国家自然科学基金
1+阅读 · 2009年12月31日
跨文化多模态情感语音的心理、生理及声学研究
国家自然科学基金
0+阅读 · 2009年12月31日
Spatio-Temporal Action Detection Under Large Motion
Arxiv
1+阅读 · 2022年9月6日
Ridgeline: A 2D Roofline Model for Distributed Systems
Arxiv
0+阅读 · 2022年9月3日
Real-time Neural-MPC: Deep Learning Model Predictive Control for Quadrotors and Agile Robotic Platforms
Arxiv
0+阅读 · 2022年9月3日
Characterising and modeling the co-evolution of transportation networks and territories
Arxiv
0+阅读 · 2022年9月2日
Multi-modal Contrastive Representation Learning for Entity Alignment
Arxiv
0+阅读 · 2022年9月2日
Beyond Rewards: a Hierarchical Perspective on Offline Multiagent Behavioral Analysis
Arxiv
0+阅读 · 2022年9月1日
Versatile Multi-Modal Pre-Training for Human-Centric Perception
Arxiv
16+阅读 · 2022年3月25日
Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications
Arxiv
26+阅读 · 2021年10月5日
Cross-Modal Discrete Representation Learning
Arxiv
18+阅读 · 2021年6月10日
Deformable Style Transfer
Arxiv
14+阅读 · 2020年3月24日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
混响
视频
VR
增强现实
CVPR
增强现实(AR)
相关VIP内容
【ACL 2022】MIT——人工智能系统跨视频、音频和文本共享的学习概念:跨模态离散表征学习
专知会员服务
23+阅读 · 2022年5月6日
【CVPR 2022】一种无需使用负样本的自监督学习方法,Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes
专知会员服务
14+阅读 · 2022年3月12日
近期必读的6篇顶会CVPR 2021【对抗攻击】相关论文和代码
专知会员服务
49+阅读 · 2021年7月10日
【伯克利博士论文】面向深度图像合成的机器学习,155页pdf
专知会员服务
34+阅读 · 2021年5月26日
【CVPR 2021】姿态可控的语音驱动说话人脸
专知会员服务
15+阅读 · 2021年5月13日
CVPR 2021 Oral | 室内动态场景中的相机重定位
专知会员服务
15+阅读 · 2021年4月12日
【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督,Cross-modal Supervision
专知会员服务
23+阅读 · 2020年3月31日
【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成,SynSin-View Synthesis
专知会员服务
28+阅读 · 2020年3月26日
谷歌提出“T5” 新NLP模型,突破迁移学习局限,多基准测试达SOTA!
专知会员服务
40+阅读 · 2020年2月26日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
专知会员服务
93+阅读 · 2019年10月18日
热门VIP内容
开通专知VIP会员 享更多权益服务
军用数据链:武器装备神经,联合作战基石,31页pdf
【ETHZ博士论文】超越像素深度:通过深度学习增强超分辨率技术,198页pdf
2018∼2023年国家自然科学基金人工智能学科人才项目申请及资助综述
【NeurIPS2024】《AmoebaLLM:构建任意形状的大型语言模型以实现高效和即时部署》
相关资讯
小扎下血本!Meta专为元宇宙搞了个AI模型
新智元
0+阅读 · 2022年7月28日
CVPR 2022 | 视频Transformer自监督预训练新范式,复旦、微软云AI实现视频识别新SOTA
机器之心
0+阅读 · 2022年4月23日
CVPR 2022 | 5秒手机猫片也能重建猫咪3D模型!Meta提出BANMo:为变形物体3D重建
CVer
1+阅读 · 2022年3月9日
5秒手机猫片也能重建猫咪3D模型,Meta提出新算法为变形物体建模 | CVPR 2022
量子位
1+阅读 · 2022年3月4日
LeCun看了都说好!Meta AI一次搞定语音、视觉和文本三个SOTA
新智元
1+阅读 · 2022年2月15日
Meta AI推出“杂食者”:一个模型搞定图像、视频和3D数据三大分类任务,性能还不输独立模型
量子位
0+阅读 · 2022年1月24日
嘈杂场景语音识别准确率怎么提?脸书:看嘴唇
量子位
0+阅读 · 2022年1月10日
戴着眼镜算什么?元宇宙核心是AR世界
新智元
0+阅读 · 2021年12月31日
AI版「女娲」来了!文字生成图像、视频,8类任务一个模型搞定
THU数据派
3+阅读 · 2021年11月26日
CVPR2019 oral | 这个面部3D重建模型,造出了6000多个名人的数字面具
极市平台
27+阅读 · 2019年3月9日
相关基金
基于神经网络的跨语言实体链指研究
国家自然科学基金
4+阅读 · 2015年12月31日
基于压缩感知的高精度实时视觉跟踪方法研究
国家自然科学基金
3+阅读 · 2015年12月31日
基于压缩感知理论的视频编解码技术研究
国家自然科学基金
1+阅读 · 2014年12月31日
语音及情感语义同步的三维人脸可视化:从发声器官到外观
国家自然科学基金
3+阅读 · 2014年12月31日
基于HEVC的多视点视频加深度三维视频编码快速算法研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于视觉感知的场景再现技术研究
国家自然科学基金
0+阅读 · 2012年12月31日
基于情感上下文的视觉语音多模态协同情感分析方法研究
国家自然科学基金
4+阅读 · 2012年12月31日
基于三维视觉及形状匹配的全自由度自然手势识别
国家自然科学基金
0+阅读 · 2012年12月31日
基于视频语义理解的艺术风格化研究
国家自然科学基金
1+阅读 · 2009年12月31日
跨文化多模态情感语音的心理、生理及声学研究
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Spatio-Temporal Action Detection Under Large Motion
Arxiv
1+阅读 · 2022年9月6日
Ridgeline: A 2D Roofline Model for Distributed Systems
Arxiv
0+阅读 · 2022年9月3日
Real-time Neural-MPC: Deep Learning Model Predictive Control for Quadrotors and Agile Robotic Platforms
Arxiv
0+阅读 · 2022年9月3日
Characterising and modeling the co-evolution of transportation networks and territories
Arxiv
0+阅读 · 2022年9月2日
Multi-modal Contrastive Representation Learning for Entity Alignment
Arxiv
0+阅读 · 2022年9月2日
Beyond Rewards: a Hierarchical Perspective on Offline Multiagent Behavioral Analysis
Arxiv
0+阅读 · 2022年9月1日
Versatile Multi-Modal Pre-Training for Human-Centric Perception
Arxiv
16+阅读 · 2022年3月25日
Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications
Arxiv
26+阅读 · 2021年10月5日
Cross-Modal Discrete Representation Learning
Arxiv
18+阅读 · 2021年6月10日
Deformable Style Transfer
Arxiv
14+阅读 · 2020年3月24日
大家都在搜
智能推荐
笛卡尔
大型语言模型
全面综述
空战战术
大模型
MoE
汽车智能化
无人艇
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top