深度学习推动了应用的爆炸式增长,然而训练深度神经网络通常需要昂贵的人工注释。在这篇论文中,我们探索了在训练深度神经网络时避免大量依赖人工注释示例的替代方案。具体来说,要么采用自监督方法来自动纠正自由获得的数据标签,要么完全放弃使用人工标签,而是利用音频和视觉信息的自然共生来学习视频中的对象表示。越来越多的数字数据通常会提供噪声标签,这些标签可以用来监督学习过程。传统的数据预处理包括在训练识别模型之前纠正/清理数据,但这可能需要大量的人工工作。我们考虑自动更正注释噪声,从而避免了昂贵的手动注释的需要。我们构建和扩展了最近的突破,使用一致性损失(consistency loss)和空间记忆映射(space memory map)来提供灵活的实例级注册,从而实现更大的泛化。进一步探索了多模态感觉流,利用模态冗余,即模态之间的重叠信息,为模型提供自监督。表示是通过利用不同的模式来学习的,而不使用任何人类注释的标签。我们将使用三个不同的应用程序演示此技术。
首先,我们自动管理一个大型音频数据集VGG-Sound,使用视觉引导收集了超过200k的视频,并在此基础上进行训练,生成最先进的音频识别模型。其次,我们提出了一种改进和扩展最近声源定位技术的方法,通过引入一种机制来挖掘硬样本并自动将其添加到对比学习公式中。最后,与在一个特定领域执行的现有视听同步任务不同,我们建议通过探索使用几种基于transformer的体系结构来解决开放世界设置中的同步问题。通过这些模型,我们在具有挑战性的语音数据集中获得了最先进的结果,并在一般声音数据集中显示了出色的泛化效果。
牛津大学是一所英国研究型大学,也是罗素大学集团、英国“G5超级精英大学”,欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人,包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月,泰晤士高等教育发布了2016-2017年度世界大学排名,其中牛津大学排名第一。