【NTU博士论文】面向视觉能力神经模型的资源高效学习

人类智能的标志是通过应用从先前任务中学到的相关知识来应对新任务的能力。因此，人类只需要从新任务中获取最少的示例就可以完成适应过程。相反，深度学习模型在实现如此显著的泛化能力方面仍然落后于人类，尤其是在数据有限的新任务上。这样的学习设置被称为资源高效学习。在本论文中，我们探索了面向视觉能力深度学习模型的资源高效问题表述。

https://dr.ntu.edu.sg/handle/10356/180196

我们首先研究了仅限视觉的神经模型，并将其应用于长尾图像分类。在长尾图像分类中，尾部类别的训练样本稀缺，而头部类别的训练样本丰富。训练分布的不平衡使得学习良好的尾部类别表示成为一项困难任务。我们提出了一种插值质心对比学习（ICCL）方法，通过利用丰富的头部类别样本，促进尾部类别表示的学习。我们在头部和尾部类别之间创建插值样本，并通过一种新的插值质心对比损失优化表示。我们在多个长尾评估数据集上展示了ICCL的有效性。

接下来，我们将研究扩展到视觉语言模型（VLM），它涉及图像和文本模态。我们研究了零样本视觉问答（Zero-shot VQA），该任务限制了VLM访问任何VQA训练样本。我们设计了一个模块化框架PnP-VQA，能够执行零样本VQA，并且无需任何训练。我们利用自然语言和网络可解释性技术作为接口，结合多个预训练模型。具体来说，我们首先通过关注相关的图像区域生成多个引导问题的图像描述。然后，我们将这些描述作为上下文输入到预训练语言模型中以回答问题。我们的引导问题描述可以捕捉到详细的视觉属性，并包含回答词汇，从而帮助问答模型得到正确答案。我们的PnP-VQA在多个VQA基准测试中达到了最先进的结果。最后，我们调查了VLM的零样本评估。VLM在零样本设置下的测试任务表现反映了它们的真正泛化能力，这对于我们公平地比较不同VLM并追踪它们的进展至关重要。当一个测试任务与VLM的训练任务有较高相似性时，该VLM的表现可能优于其他没有这种相似性的VLM。因此，我们进行迁移学习实验，研究训练任务和测试任务之间的任务相似性，这在评估VLM时往往未被考虑。此外，我们通过对迁移性能进行因子分析，直接从数据中发现潜在的视觉语言技能。我们证明了因子分析是一种有效的数据驱动方法，可以识别合理却令人惊讶的视觉语言技能。此外，我们通过提出一个新的基准测试OLIVE，解决了当前缺乏关注VLM在实际环境中评估的视觉语言基准问题。OLIVE模拟了来自用户对VLM的多样化查询，旨在真实的应用场景中进行评估。

成为VIP会员查看完整内容

相关内容

博士论文

关注 116

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【NUS博士论文】视频语义理解中的因果模型

专知会员服务

34+阅读 · 2024年10月30日

【牛津大学博士论文】基于元学习和对称性的数据高效深度学习探索

专知会员服务

28+阅读 · 2024年10月27日

【博士论文】高效且有效的基础大型多模态模型学习

专知会员服务

38+阅读 · 2024年10月21日

【斯坦福博士论文】超越最大似然估计：分布感知的机器学习

专知会员服务

27+阅读 · 2024年9月21日