闹市中的科学问题

会员服务 ·

闹市中的科学问题

2018 年 4 月 2 日 中科院之声 石晶

请想象一下这样一个场景：

在一个普普通通阳光明媚的下午，你独自走在街上，前面有两个人，他们正在讨论着附近新开的一家便利店。突然，身后传来了一阵急促的狗叫声，“汪汪汪”，你赶紧回头看看是怎么回事。这时，街道的那头传来了警车的鸣笛声，“呜哇儿，呜哇儿，呜哇儿”。

过了一会儿，你晃过神来，发现狗的叫声似乎并没有停歇，而行人的讨论声依然还在耳旁，警车的鸣笛声渐行渐远。

你也许还没有意识到，其实你刚刚遇到并轻松完成了一个困扰计算科学半个多世纪的难题——鸡尾酒会问题。

图1.一个街道上的听觉场景，图片来自 IEEE Spectrum

鸡尾酒会问题（cocktail party problem），是英国认知科学家 Edward ColinCherry 于1953年在研究注意力机制时提出的。它指的是人类在复杂听觉环境下的一种听力选择能力。

在多种声音出现的情况下，人可以把注意力集中在某一个声音刺激上，而忽略其他的背景声音。也就是说，人类可以集中在某一个人的谈话之中，而忽略背景中其他的对话或噪音。

回想一下刚才我们假设的这个场景，当警车鸣笛声出现时，我们可能迅速将注意力集中到这个声音上面，而忽略了其他声音的干扰，比如说行人的说话声和狗叫声。当然，你可以随意测试在多个声源环境下的听觉行为，事实会告诉你，你总是可以自然而完美地听到你想要听到的部分，但是却总是无法同时关注到多个声源。

图片来自网络

事实上，面对复杂环境的听觉注意力选择能力是人类听觉系统表现出来的一项惊人天赋。鸡尾酒会效应的产生机制虽然复杂，但对于我们人类来说，在多个声源之间转换注意力是一件非常轻松的事，以至于我们甚至感受不到这个过程的存在。然而，对于我们的计算机或者各种智能设备来说，如何在复杂的环境中选择想要听的声音，这就是一个很大的难题了。

针对这个问题，科学家们一直在进行分析和研究。在过去60年中，科学家们针对鸡尾酒会问题提出了很多的方法。大致可以形成这三种不同的流派：基于信号处理的方法、基于规则的方法，以及基于分解的方法。然而，这些方法却依然受限于其各自理想情况下的假设，或者较为稳定的数据条件。对于计算系统而言，真正较为复杂环境下的听觉选择仍然难以得到理想的效果。

幸运的是，随着技术的发展和数据的积累，深度神经网络的方法也开始在解决鸡尾酒会问题的领域大显身手。

鸡尾酒会问题旨在从被干扰的语音信号中分离出有用的信号，这个过程能够很自然地表达成一个监督学习问题。深度神经网络作为当前监督学习最有力的一种方法，可以被用做学习一个从带噪原始数据信号到分离目标（例如理想掩蔽或者感兴趣语音的幅度谱）的映射函数。

日前，中科院自动化所听觉模型与认知计算团队在这方面有了新的进展。科研人员提出一种听觉注意性选择模型，将鸡尾酒会的问题聚焦在“注意力”这一关键和出发点上。