现代神经网络体系结构可以利用大量的数据来很好地泛化训练分布。然而,对于从看不见的但相关的分布中提取的数据,它们的系统泛化能力较差,这需要组合推理和知识重用。在这项工作中,我们提出了神经解释器,这是一种将自注意网络中的推理分解为一个模块系统的架构,我们称之为函数。模型的输入以端到端学习的方式通过一系列函数进行路由。该体系结构可以灵活地沿宽度和深度组合计算,易于训练后的能力扩展。为了证明神经解释器的通用性,我们在两个不同的环境中评估它: 图像分类和视觉抽象推理。在前者中,我们证明了神经解释器在使用更少参数的情况下,与视觉transformer 的表现相当,同时可以以样本有效的方式转移到新任务中。在后者中,我们发现神经解释器在系统概括方面与最先进的技术相比具有竞争力。
https://www.zhuanzhi.ai/paper/2bc15eecd32f4070c53c2f1346feaddd