题目:
Transfer Learning in Visual and Relational Reasoning
简介:
迁移学习已成为计算机视觉和自然语言处理中的事实上的标准,尤其是在缺少标签数据的地方。通过使用预先训练的模型和微调,可以显着提高准确性。在视觉推理任务(例如图像问答)中,传递学习更加复杂。除了迁移识别视觉特征的功能外,我们还希望迁移系统的推理能力。而且,对于视频数据,时间推理增加了另一个维度。在这项工作中,我们将迁移学习的这些独特方面形式化,并提出了一种视觉推理的理论框架,以完善的CLEVR和COGdatasets为例。此外,我们引入了一种新的,端到端的微分递归模型(SAMNet),该模型在两个数据集上的传输学习中均显示了最新的准确性和更好的性能。改进的SAMNet性能源于其将抽象的多步推理与序列的长度解耦的能力及其选择性的关注能力,使其仅能存储与问题相关的信息外部存储器中的对象。
目录: