【CMU博士论文】鲁棒大规模音频/视觉学习，309页pdf

近几年，深度学习的进步极大地推动了音频视觉事件检测的发展。已经有多种模型架构被应用于多模态的这一任务，推动了性能基准的提高，并使得这些模型能够在许多关键任务中得到部署，例如监控和恶意内容过滤。但是，研究社区仍然缺乏：1) 对于与图像或文本对应的音频信号的独特性质，对不同机器学习模型行为的系统理解。2) 用于音频-视觉学习的不同模型的鲁棒性也仍然是一个尚未深入研究的领域。本论文的首要目标是探讨构建一个表现良好的仅音频和音频-视觉学习系统的最佳实践。具体来说，我们分析特征，比较不同的架构，并理解训练技术的差异，以提供全面和深入的理解。我们的调查追踪了从卷积家族到Transformer家族的模型的演变，以及从监督学习到自监督学习的学习范式的转变。（这部分在第2、3、4、5、6、7章中有详细说明）第二个目标是通过衡量每个模型在噪音和对抗性扰动下的行为来研究其鲁棒性。我们首先展示了在视觉和音频领域都存在由对抗性扰动引起的实际威胁。在此之后，我们扩大了对对抗性鲁棒性的分析范围，不仅仅是单一的音频输入，还包括了众多的模态，如音频、视频、图像和文本。（这部分内容在第8、9、10、11章中有详细说明）进一步地，我们扩展了我们的研究范围，包括了对抗性鲁棒性和噪音鲁棒性之间的比较研究（第12章）。为了在音频-视觉学习中实现泛化和鲁棒性的双重承诺，我们提出了我们的音频漫步扩散系统。我们利用扩散模型作为一个有效的数据增强工具，添加语义上多样的样本来提高性能，展示了泛化的潜力。此外，我们利用扩散模型固有的去噪能力，表明它可以轻松增强现有的音频分类系统的鲁棒性。（第13章）

成为VIP会员查看完整内容

相关内容

博士论文

关注 126

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【MIT博士论文】用于口语处理的迁移学习，202页pdf

专知会员服务

28+阅读 · 2023年8月14日

【ETH博士论文】标签和数据稀缺下的故障诊断，130页pdf

专知会员服务

68+阅读 · 2023年7月28日

【CMU博士论文】图结构和神经网络学习，94页pdf

专知会员服务

51+阅读 · 2023年7月4日

【MIT博士论文】机器学习模型调试的有效工具，149页pdf

专知会员服务

48+阅读 · 2023年3月29日