人类智能的标志是通过应用从先前任务中学到的相关知识来应对新任务的能力。因此,人类只需要从新任务中获取最少的示例就可以完成适应过程。相反,深度学习模型在实现如此显著的泛化能力方面仍然落后于人类,尤其是在数据有限的新任务上。这样的学习设置被称为资源高效学习。在本论文中,我们探索了面向视觉能力深度学习模型的资源高效问题表述。
https://dr.ntu.edu.sg/handle/10356/180196
我们首先研究了仅限视觉的神经模型,并将其应用于长尾图像分类。在长尾图像分类中,尾部类别的训练样本稀缺,而头部类别的训练样本丰富。训练分布的不平衡使得学习良好的尾部类别表示成为一项困难任务。我们提出了一种插值质心对比学习(ICCL)方法,通过利用丰富的头部类别样本,促进尾部类别表示的学习。我们在头部和尾部类别之间创建插值样本,并通过一种新的插值质心对比损失优化表示。我们在多个长尾评估数据集上展示了ICCL的有效性。
接下来,我们将研究扩展到视觉语言模型(VLM),它涉及图像和文本模态。我们研究了零样本视觉问答(Zero-shot VQA),该任务限制了VLM访问任何VQA训练样本。我们设计了一个模块化框架PnP-VQA,能够执行零样本VQA,并且无需任何训练。我们利用自然语言和网络可解释性技术作为接口,结合多个预训练模型。具体来说,我们首先通过关注相关的图像区域生成多个引导问题的图像描述。然后,我们将这些描述作为上下文输入到预训练语言模型中以回答问题。我们的引导问题描述可以捕捉到详细的视觉属性,并包含回答词汇,从而帮助问答模型得到正确答案。我们的PnP-VQA在多个VQA基准测试中达到了最先进的结果。 最后,我们调查了VLM的零样本评估。VLM在零样本设置下的测试任务表现反映了它们的真正泛化能力,这对于我们公平地比较不同VLM并追踪它们的进展至关重要。当一个测试任务与VLM的训练任务有较高相似性时,该VLM的表现可能优于其他没有这种相似性的VLM。因此,我们进行迁移学习实验,研究训练任务和测试任务之间的任务相似性,这在评估VLM时往往未被考虑。此外,我们通过对迁移性能进行因子分析,直接从数据中发现潜在的视觉语言技能。我们证明了因子分析是一种有效的数据驱动方法,可以识别合理却令人惊讶的视觉语言技能。 此外,我们通过提出一个新的基准测试OLIVE,解决了当前缺乏关注VLM在实际环境中评估的视觉语言基准问题。OLIVE模拟了来自用户对VLM的多样化查询,旨在真实的应用场景中进行评估。