超越CLIP的多模态模型，只需不到1%的训练数据！南加大最新研究来了

会员服务 ·

超越CLIP的多模态模型，只需不到1%的训练数据！南加大最新研究来了

2022 年 8 月 7 日 量子位

羿阁发自凹非寺
量子位 | 公众号 QbitAI

火爆全网的AI绘画你玩了吗？

女娲无限版、DALL·E2、Imagen……这些通过文字生成图像的AI绘画工具，背后的原理都是一个叫“CLIP”的模型，它是AI如何“理解”人类语义这一问题的关键。

CLIP（Contrastive Language–Image Pre-training），是一种基于对比的图片-文本学习的跨模态预训练模型，由OpenAI于去年1月发布。

它好用是好用，但一个大问题是数据需求太大：4亿个图像文本对、256个GPU，这对许多公司和个人都很不友好。

对此，南加州大学的最新研究发现了一种基于本体的课程学习（Curriculum Learning）算法，只需不到1%的训练数据就能达到CLIP同款效果，甚至在图像检索方面表现更好。

新方法名为TOnICS（Training with Ontology-Informed Contrastive Sampling），相关论文已上传到arXiv。

原理介绍

在介绍新方法之前，首先需要回顾一下CLIP。

CLIP的模型结构其实非常简单：包括两个部分，即文本编码器和图像编码器。

两者分别编码后，将文本和视觉嵌入映射到相同空间中，使用对比学习的思想，将匹配的图片-文本Embedding的距离拉近，将不匹配的Embedding拉远。

在此基础上，TOnICS没有选择从头训练图像和文本编码器，而是把单模态预训练模型BERT用于文本编码，微软的VinVL用于图像编码，并使用InfoNCE损失函数将它们彼此对齐。

这是一种基于本体的课程学习算法，从简单的样本开始训练，方法是随机抽样小批次，并通过在图像和文本输入中加入相似的小批量数据，逐步加大对比任务的难度。

举个例子，在随机抽样生成的小批量数据中，如果想找到“一条叼着飞盘在草地上奔跑的狗”，只需要先找画面中有狗的图片即可，因为随机生成的图像中包含狗的概率非常小。

也就意味着，随机小批量抽样将对比任务简化为了对象匹配。

但当对小批样进行采样时，会抓取到很多画面中有狗的相似图片，因此仅靠识别图片中是否有狗已经不能解决问题了，该模型必须共享上下文级信息的语言和视觉表示，从而产生更细粒度的对齐。

此外，不同于CLIP从互联网收集构建了4亿个图像-文本对的数据集，BERT-VinVL模型只需不到1%的训练量，但效果并没有打折扣。

研究人员在MS-COCO和Conceptual Captions上训练BERT-VinVL模型，并将该模型与下游检索任务上的CLIP进行比较。

实验结果发现，BERT-VinVL模型同样能达到零样本学习效果，甚至在图像检索上表现更好（ R@1 提高了 1.5%）。

研究团队

该篇论文来自南加州大学的研究团队，作者分别是Tejas Srinivasan、Xiang Ren和Jesse Thomason。

第一作者Tejas Srinivasan，是南加州大学GLAMOR实验室的一年级博士生，跟随助理教授Jesse Thomason进行多模态机器学习和语言基础领域的研究。

他曾在微软研究院实习，并在人工智能基金会短暂地担任过 NLP 研究科学家。

之前在卡内基梅隆大学语言技术学院完成了硕士学位，本科毕业于孟买印度理工学院机械工程专业，辅修计算机科学学位。

参考链接：
[1]https://tejas1995.github.io/
[2]https://twitter.com/tejubabyface_/status/1554152177035186178
[3]https://arxiv.org/abs/2207.14525

— 完 —

「人工智能」、「智能汽车」微信社群邀你加入！

欢迎关注人工智能、智能汽车的小伙伴们加入我们，与AI从业者交流、切磋，不错过最新行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

多模态模型

关注 6

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【NeurIPS2021】基于关联与识别的少样本目标检测

专知会员服务

24+阅读 · 2021年11月29日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【ACL2021】预训练语言模型的少样本知识图谱文本生成

专知会员服务

42+阅读 · 2021年6月6日

文澜：超大规模多模态预训练模型！

专知会员服务

66+阅读 · 2021年3月21日

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

专知会员服务

15+阅读 · 2020年10月27日

Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新ImageNet准确率

专知会员服务

36+阅读 · 2020年3月11日

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您，附论文代码

专知会员服务

85+阅读 · 2020年2月27日

Meta发布全新检索增强语言模型Atlas，110亿参数反超5400亿的PaLM

新智元

0+阅读 · 2022年8月15日

ECCV 2022 | 视频理解新框架X-CLIP：仅用微调的成本，达到预训练的全能

PaperWeekly

0+阅读 · 2022年8月9日

如何使用多类型数据预训练多模态模型？

极市平台

0+阅读 · 2022年7月21日

超越CLIP！谷歌发布首个大规模MoE架构的视觉语言模型

夕小瑶的卖萌屋

3+阅读 · 2022年6月14日

字节最新文本生成图像AI，训练集里居然没有一张带文字描述的图片？！

量子位

1+阅读 · 2022年3月23日

全球最大规模中文跨模态生成模型文心ERNIE-ViLG来了！百度这次实现了图文双向生成

AI前线

1+阅读 · 2022年1月7日

Facebook 推出多模态通用模型 FLAVA，吊打 CLIP 平均十个点！

夕小瑶的卖萌屋

2+阅读 · 2022年1月5日

年末回顾：2021年 AI 领域十大研究趋势及必读论文

夕小瑶的卖萌屋

0+阅读 · 2021年12月31日

万字综述！从21篇最新论文看多模态预训练模型研究进展

PaperWeekly

0+阅读 · 2021年11月7日

多模态中的Prompt范式：从CLIP、CoOp到CLIP-adapter

PaperWeekly

5+阅读 · 2021年11月3日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

4+阅读 · 2015年12月31日

多分辨率相机及图像超分辨率技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

通用Web结构化信息检索引擎的关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

小样本空间制图

国家自然科学基金

0+阅读 · 2012年12月31日

维吾尔语语素结构规则及其应用研究

国家自然科学基金

0+阅读 · 2011年12月31日

离子液体支载手性席夫碱催化剂催化性能三级调控研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向英汉双向跨语言图像检索的文本分析关键技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于多模态概率主题模型的实体相关文本可视化

国家自然科学基金

1+阅读 · 2011年12月31日

基于湍流非平衡输运特性改进湍流模型对角区分离模拟能力的研究

国家自然科学基金

0+阅读 · 2009年12月31日

Adversarial Attacks are a Surprisingly Strong Baseline for Poisoning Few-Shot Meta-Learners

Arxiv

0+阅读 · 2022年11月23日

Open-vocabulary Attribute Detection

Arxiv

1+阅读 · 2022年11月23日

ArzEn-ST: A Three-way Speech Translation Corpus for Code-Switched Egyptian Arabic - English

Arxiv

0+阅读 · 2022年11月22日

Vision-Language Pre-training: Basics, Recent Advances, and Future Trends

Arxiv

28+阅读 · 2022年10月17日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

Arxiv

10+阅读 · 2021年2月11日

Deep Image Retrieval: A Survey

Arxiv

16+阅读 · 2021年1月27日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

UNITER: Learning UNiversal Image-TExt Representations

Arxiv

23+阅读 · 2019年9月25日

BERT for Joint Intent Classification and Slot Filling

Arxiv

13+阅读 · 2019年2月28日

VIP会员