近几年,深度学习的进步极大地推动了音频视觉事件检测的发展。已经有多种模型架构被应用于多模态的这一任务,推动了性能基准的提高,并使得这些模型能够在许多关键任务中得到部署,例如监控和恶意内容过滤。但是,研究社区仍然缺乏:1) 对于与图像或文本对应的音频信号的独特性质,对不同机器学习模型行为的系统理解。2) 用于音频-视觉学习的不同模型的鲁棒性也仍然是一个尚未深入研究的领域。本论文的首要目标是探讨构建一个表现良好的仅音频和音频-视觉学习系统的最佳实践。具体来说,我们分析特征,比较不同的架构,并理解训练技术的差异,以提供全面和深入的理解。我们的调查追踪了从卷积家族到Transformer家族的模型的演变,以及从监督学习到自监督学习的学习范式的转变。(这部分在第2、3、4、5、6、7章中有详细说明)第二个目标是通过衡量每个模型在噪音和对抗性扰动下的行为来研究其鲁棒性。我们首先展示了在视觉和音频领域都存在由对抗性扰动引起的实际威胁。在此之后,我们扩大了对对抗性鲁棒性的分析范围,不仅仅是单一的音频输入,还包括了众多的模态,如音频、视频、图像和文本。(这部分内容在第8、9、10、11章中有详细说明)进一步地,我们扩展了我们的研究范围,包括了对抗性鲁棒性和噪音鲁棒性之间的比较研究(第12章)。为了在音频-视觉学习中实现泛化和鲁棒性的双重承诺,我们提出了我们的音频漫步扩散系统。我们利用扩散模型作为一个有效的数据增强工具,添加语义上多样的样本来提高性能,展示了泛化的潜力。此外,我们利用扩散模型固有的去噪能力,表明它可以轻松增强现有的音频分类系统的鲁棒性。(第13章)

成为VIP会员查看完整内容
25

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【MIT博士论文】用于口语处理的迁移学习,202页pdf
专知会员服务
28+阅读 · 2023年8月14日
【ETH博士论文】标签和数据稀缺下的故障诊断,130页pdf
专知会员服务
67+阅读 · 2023年7月28日
【CMU博士论文】图结构和神经网络学习,94页pdf
专知会员服务
51+阅读 · 2023年7月4日
【MIT博士论文】机器学习模型调试的有效工具,149页pdf
专知会员服务
48+阅读 · 2023年3月29日
【CMU博士论文】多语言视觉-语言模型研究,190页pdf
专知会员服务
35+阅读 · 2023年2月15日
【CMU博士论文】无人工监督的视觉表示与识别,126页pdf
专知会员服务
35+阅读 · 2022年12月14日
【CMU博士论文】通过记忆的元强化学习,118页pdf
专知会员服务
48+阅读 · 2022年6月23日
【ETH博士论文】贝叶斯深度学习,241页pdf
专知会员服务
126+阅读 · 2022年1月16日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
164+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
425+阅读 · 2023年3月31日
Arxiv
155+阅读 · 2023年3月24日
VIP会员
相关VIP内容
【MIT博士论文】用于口语处理的迁移学习,202页pdf
专知会员服务
28+阅读 · 2023年8月14日
【ETH博士论文】标签和数据稀缺下的故障诊断,130页pdf
专知会员服务
67+阅读 · 2023年7月28日
【CMU博士论文】图结构和神经网络学习,94页pdf
专知会员服务
51+阅读 · 2023年7月4日
【MIT博士论文】机器学习模型调试的有效工具,149页pdf
专知会员服务
48+阅读 · 2023年3月29日
【CMU博士论文】多语言视觉-语言模型研究,190页pdf
专知会员服务
35+阅读 · 2023年2月15日
【CMU博士论文】无人工监督的视觉表示与识别,126页pdf
专知会员服务
35+阅读 · 2022年12月14日
【CMU博士论文】通过记忆的元强化学习,118页pdf
专知会员服务
48+阅读 · 2022年6月23日
【ETH博士论文】贝叶斯深度学习,241页pdf
专知会员服务
126+阅读 · 2022年1月16日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员