尽管许多多模态机器学习方法相较于单一感知的单模态方法在准确性上取得了优越的表现,但它们隐含地假设视觉模态总是清晰的。然而,这一假设在实际应用中容易被证伪,因为在日常环境中,视觉条件不佳的情况十分常见。我们发现,当视觉条件具有挑战性时,现有的机器学习方法往往无法有效地利用其他模态的信息。因此,它们过度依赖视觉模态,因为在训练数据中,视觉模态通常是可靠且信息丰富的。结果,当视觉条件变差并开始包含误导性信息时,这些方法无法适应。此外,传统的多模态模型从未学会在视觉挑战场景中找到跨模态的对应关系。本论文旨在研究在视觉挑战条件下的多模态学习。我们将在各个章节中分别探讨每种变化,并提出我们的解决方案,以实现更有效的多模态表示学习。最后,在论文的最后一章,我们将提供一个简要的结论。我们希望我们的研究能激发更多关于视觉挑战条件下多模态学习的研究。
https://hdl.handle.net/11245.1/bf8162ca-b205-40d2-b214-5c2a1ed17a19