多模态自监督学习。本节将讨论Transformer架构如何弥合视觉领域和自然语言处理领域之间的差距。ViT架构允许使用Transformer基座对不同模态进行多模态学习,如CLIP、LiT、VATT。它还开启了基于NLP领域掩模语言建模思想的自监督视觉表示学习,如BEIT和MAE。