闹市中的科学问题

2018 年 4 月 2 日 中科院之声 石晶

请想象一下这样一个场景:

 

在一个普普通通阳光明媚的下午,你独自走在街上,前面有两个人,他们正在讨论着附近新开的一家便利店。突然,身后传来了一阵急促的狗叫声,“汪汪汪”,你赶紧回头看看是怎么回事。这时,街道的那头传来了警车的鸣笛声,“呜哇儿,呜哇儿,呜哇儿”。

 

过了一会儿,你晃过神来,发现狗的叫声似乎并没有停歇,而行人的讨论声依然还在耳旁,警车的鸣笛声渐行渐远。

 

你也许还没有意识到,其实你刚刚遇到并轻松完成了一个困扰计算科学半个多世纪的难题——鸡尾酒会问题。


1.一个街道上的听觉场景,图片来自 IEEE Spectrum


鸡尾酒会问题(cocktail party problem),是英国认知科学家 Edward ColinCherry 于1953年在研究注意力机制时提出的。它指的是人类在复杂听觉环境下的一种听力选择能力。

 

在多种声音出现的情况下,人可以把注意力集中在某一个声音刺激上,而忽略其他的背景声音。也就是说,人类可以集中在某一个人的谈话之中,而忽略背景中其他的对话或噪音。

 

回想一下刚才我们假设的这个场景,当警车鸣笛声出现时,我们可能迅速将注意力集中到这个声音上面,而忽略了其他声音的干扰,比如说行人的说话声和狗叫声。当然,你可以随意测试在多个声源环境下的听觉行为,事实会告诉你,你总是可以自然而完美地听到你想要听到的部分,但是却总是无法同时关注到多个声源。


图片来自网络


事实上,面对复杂环境的听觉注意力选择能力是人类听觉系统表现出来的一项惊人天赋。鸡尾酒会效应的产生机制虽然复杂,但对于我们人类来说,在多个声源之间转换注意力是一件非常轻松的事,以至于我们甚至感受不到这个过程的存在。然而,对于我们的计算机或者各种智能设备来说,如何在复杂的环境中选择想要听的声音,这就是一个很大的难题了。

 

针对这个问题,科学家们一直在进行分析和研究。在过去60年中,科学家们针对鸡尾酒会问题提出了很多的方法。大致可以形成这三种不同的流派:基于信号处理的方法、基于规则的方法,以及基于分解的方法。然而,这些方法却依然受限于其各自理想情况下的假设,或者较为稳定的数据条件。对于计算系统而言,真正较为复杂环境下的听觉选择仍然难以得到理想的效果。

 

幸运的是,随着技术的发展和数据的积累,深度神经网络的方法也开始在解决鸡尾酒会问题的领域大显身手。


鸡尾酒会问题旨在从被干扰的语音信号中分离出有用的信号,这个过程能够很自然地表达成一个监督学习问题。深度神经网络作为当前监督学习最有力的一种方法,可以被用做学习一个从带噪原始数据信号到分离目标(例如理想掩蔽或者感兴趣语音的幅度谱)的映射函数。

 

日前,中科院自动化所听觉模型与认知计算团队在这方面有了新的进展。科研人员提出一种听觉注意性选择模型,将鸡尾酒会的问题聚焦在“注意力”这一关键和出发点上。


图片来自网络

 

科研人员让这个模型分别完成“主动倾听”和“被动刺激”两个任务。在执行任务的过程中,模型记录下好几个说话人的声纹特征,把这些声音都混合叠加到同一个频率通道上。然后让机器不断的去学习和提取这些特征,积累出丰富的知识经验,让机器根据这些信息去辨识和抽取出所自己所“感兴趣”的声音。


听觉注意性选择示意图。a)模型总体框架图;(b)用于存储说话人声纹特征的长时记忆单元结构图。

 

在中、英文两个公开语音数据集上的对比实验表明,这个听觉注意性选择模型在含噪音的多说话人听觉场景下具有更好的鲁棒性。

 

这项研究为未来在复杂环境下处理各种语音的相关问题上提供了新一条新的通道。

 

想象一下,在不久的将来中,在嘈杂的地铁里,我们只要报上目的地就可以在售票机上准确快速完成购票;在响亮的电视机声音下,我们仍然轻松地指挥远处的智能机器人通过语音进行操作;在吵闹的人群中,我们依然毫无障碍地使用手机里的语音助手……这一切“声”机勃勃的精彩操作,都将可能不再成为我们的障碍。


该工作详细内容请查看“阅读原文”。


来源:中国科学院自动化研究所


登录查看更多
0

相关内容

深度学习可解释性研究进展
专知会员服务
97+阅读 · 2020年6月26日
专知会员服务
114+阅读 · 2020年6月12日
【哈佛大学】机器学习的黑盒解释性,52页ppt
专知会员服务
168+阅读 · 2020年5月27日
多智能体深度强化学习的若干关键科学问题
专知会员服务
186+阅读 · 2020年5月24日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
141+阅读 · 2020年5月19日
【干货书】数值计算C编程,319页pdf,Numerical C
专知会员服务
67+阅读 · 2020年4月7日
【新书】Python中的经典计算机科学问题,224页PDF
专知会员服务
52+阅读 · 2019年12月31日
神经网络可解释性最新进展
专知
18+阅读 · 2018年3月10日
2018年,人工智能领域仍然有五大难题需要解决
DeepTech深科技
5+阅读 · 2017年12月27日
关于医学影像背后的科学,你都知道多少?
中科院物理所
3+阅读 · 2017年12月14日
从0到1,漫谈步态识别那些事
机器学习研究会
10+阅读 · 2017年9月24日
推荐|斯坦福大学机器学习:神经网络的表示!
全球人工智能
5+阅读 · 2017年9月20日
人工神经网络是否模拟了人类大脑?
数说工作室
9+阅读 · 2017年7月19日
Arxiv
19+阅读 · 2018年6月27日
Arxiv
3+阅读 · 2018年6月19日
Arxiv
3+阅读 · 2018年6月14日
Arxiv
5+阅读 · 2018年4月22日
Arxiv
9+阅读 · 2018年3月23日
VIP会员
相关VIP内容
深度学习可解释性研究进展
专知会员服务
97+阅读 · 2020年6月26日
专知会员服务
114+阅读 · 2020年6月12日
【哈佛大学】机器学习的黑盒解释性,52页ppt
专知会员服务
168+阅读 · 2020年5月27日
多智能体深度强化学习的若干关键科学问题
专知会员服务
186+阅读 · 2020年5月24日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
141+阅读 · 2020年5月19日
【干货书】数值计算C编程,319页pdf,Numerical C
专知会员服务
67+阅读 · 2020年4月7日
【新书】Python中的经典计算机科学问题,224页PDF
专知会员服务
52+阅读 · 2019年12月31日
相关资讯
神经网络可解释性最新进展
专知
18+阅读 · 2018年3月10日
2018年,人工智能领域仍然有五大难题需要解决
DeepTech深科技
5+阅读 · 2017年12月27日
关于医学影像背后的科学,你都知道多少?
中科院物理所
3+阅读 · 2017年12月14日
从0到1,漫谈步态识别那些事
机器学习研究会
10+阅读 · 2017年9月24日
推荐|斯坦福大学机器学习:神经网络的表示!
全球人工智能
5+阅读 · 2017年9月20日
人工神经网络是否模拟了人类大脑?
数说工作室
9+阅读 · 2017年7月19日
相关论文
Top
微信扫码咨询专知VIP会员