本文提出了一种新的基于注意力的自适应计算算法DACT,与现有算法不同,DACT是端到端可微的。我们的方法可以与许多网络结合使用;具体来说,我们研究了它在众所周知的MAC体系结构中的应用,它大大减少了实现相似精度所需的重复步骤,因此提高了它的性能与计算率。此外,我们还表明,通过增加所使用的最大步数,我们甚至超过了CLEVR数据集中最好的非自适应MAC的准确性,这表明我们的方法能够控制步数而不会有显著的性能损失。我们的方法提供的其他优势包括通过丢弃无用的步骤来显著提高可解释性,并提供对底层推理过程的更多洞察。最后,我们将自适应计算等价于模型的集合,类似于专家公式的混合。我们的实验代码和配置文件都可以用于支持这一领域的进一步研究。
https://arxiv.org/abs/2004.12770
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“DACVR” 就可以获取《视觉推理-可微自适应计算时间》专知下载链接