Large-scale Transformer models bring significant improvements for various downstream vision language tasks with a unified architecture. The performance improvements come with increasing model size, resulting in slow inference speed and increased cost for severing. While some certain predictions benefit from the full complexity of the large-scale model, not all of inputs need the same amount of computation to conduct, potentially leading to computation resource waste. To handle this challenge, early exiting is proposed to adaptively allocate computational power in term of input complexity to improve inference efficiency. The existing early exiting strategies usually adopt output confidence based on intermediate layers as a proxy of input complexity to incur the decision of skipping following layers. However, such strategies cannot apply to encoder in the widely-used unified architecture with both encoder and decoder due to difficulty of output confidence estimation in the encoder. It is suboptimal in term of saving computation power to ignore the early exiting in encoder component. To handle this challenge, we propose a novel early exiting strategy for unified visual language models, which allows dynamically skip the layers in encoder and decoder simultaneously in term of input layer-wise similarities with multiple times of early exiting, namely \textbf{MuE}. By decomposing the image and text modalities in the encoder, MuE is flexible and can skip different layers in term of modalities, advancing the inference efficiency while minimizing performance drop. Experiments on the SNLI-VE and MS COCO datasets show that the proposed approach MuE can reduce expected inference time by up to 50\% and 40\% while maintaining 99\% and 96\% performance respectively.
翻译:大型变压器模型为各种下游视觉语言任务带来显著改进,并具有统一的架构。 业绩改进伴随着越来越多的模型规模,导致推导速度缓慢,分解成本增加。 虽然某些预测得益于大型模型的全面复杂性, 但并非所有投入都需要相同的计算量才能进行, 可能导致资源浪费。 为了应对这一挑战, 早期退出建议以适应性的方式分配计算能力, 以投入复杂程度提高推断效率。 现有的早期退出战略通常采用基于中间层的输出信心, 以中间层为输入复杂度的代号, 以做出下层跳动决定。 然而, 这样的战略无法适用于广泛使用的统一结构中的编码器, 包括编码器和解码器, 由于对编码器的输出信心估算有困难, 并非所有输入量都需要相同的计算能力来忽略编码器组件中的早期退出。 为了应对这一挑战, 我们提出了一个新的早期统一视觉语言模型战略, 允许通过动态地跳过输入层的层层和解析器的层层, 在输入层中, 递进层和递进层的周期内, 递减前期的预变变变的货币, 递性 度 度 度 度 度 度 度 度 递减 递减 度 度 度 度 递减 递减 递减 递减 递减 递减 递减 度 递减 递增 递减 度 度 度 度 递增 度 度 度 度 度 度 度 度 度 递增 递 度 度 度 度 递增 度 度 度 度 度 递减 度 度 递增 度 递增 度 度 度 递增 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 递增