FAIR和牛津大学VGG组最新论文:多模态自监督学习

2020 年 3 月 29 日 CVer

点击上方“CVer”,选择加"星标"或“置顶”

重磅干货,第一时间送达

者:bingo

https://zhuanlan.zhihu.com/p/115127335

本文已由原作者授权,不得擅自二次转载

之前写过很多篇关于图像自监督学习的论文阅读笔记。最近FAIR和VGG一起推出了一篇多模态自监督学习的论文:Multi-modal Self-Supervision from Generalized Data Transformations。

https://arxiv.org/abs/2003.04298

整体流程

与图像自监督学习不同的是,多模态自监督学习需要同时考虑多种数据输入类型(图像和语音),并且利用他们的关联辅助学习。如图1,论文提出的方法主要包括三个步骤:1. 时序抖动,即从视频中随机选取一个时间起点;2. 模态选择和数据增强,选取一个特定模态进行数据增强;3. 跨模态对比学习。

如图1,对于多模态数据  ,它对应的特征表示 为 。多模态自监督学习的目标是:1. 使同一个样本的不同模态特征尽可能接近(Attractive),  ;2. 使不同样本的特征尽可能远离(Repulsive),  。这个目标,最终是通过对比学习的损失函数来实现的。

图1. 多模态自监督框架图,步骤包括时序抖动(Temporal jittering),模态选择和增强(slicing+augmentation),跨模态对比学习(cross-modal contrastive learning)。

数据增强

Step 1. 选择特定模态。这个步骤,只选择一个模态进行增强,另一个模态保持不变。

Step 2. 对选定的模态进行数据增强。如图2,图像增强包括裁切、水平翻转和时序抖动,语音数据增强包括时间掩盖、频域掩盖和时序抖动。

图2. 数据增强

损失函数

论文使用对比损失函数进行模型训练。具体的,对于数据  ,通过不同的特征变换  构造正样本对:  ,不同样本  和  的变换组成负样本对 : 。损失函数目标是最大化正样本对概率:

其中,  ,  是温度参数,  是内积运算。

梯度和学习过程。  梯度计算如下:

如果对于简单变换  和 ,和样本对  相似性大,产生对梯度较小;反之,梯度较大。作者指出,对比损失函数潜在的实现了课程学习的策略,首先对简单的样本对进行学习,然后逐步学习复杂样本对。后续实验中也有对应。

语音和视觉的具体实现。作者采用2种变换( ),每次只选取一个模态做变换,计算如下:

对应的损失函数:

 .

实验

论文使用Kinetics-400数据集进行无监督训练,下游任务是动作识别(UCF101, HMDB51)和语音事件分类(ESC-50, DCASE2014)任务。

首先,如图3,通过ablation study,验证了时序抖动和语音、视频同步的重要性。

然后,如图4,作者严重了渐进课程学习的过程,即简单的变换比如随机裁切可以较快的学习,而多种复杂变换的组合学习速度较慢。

图3. Ablation study
图4. 渐进课程学习,简单的变换例如随机裁切更快的学习,而复杂变换学习速度较慢。

最后,在动作识别和语音事件分类任务上,论文的方法超过或者接近当前最好性能方法。

总结

多模态数据包含多种不同的数据类型,首先需要映射到同一个空间进行计算。同时,不同模态数据由于各自特性可以产生特定数据增强方法。


相关论文:
1. Multi-modal Self-Supervision from Generalized Data Transformations, arxiv


重磅!CVer-论文写作与投稿 交流群已成立


扫码添加CVer助手,可申请加入CVer-论文写作与投稿 微信交流群,目前已满1100+人,旨在交流顶会(CVPR/ICCV/ECCV等)、顶刊(IJCV/TPAMI等)、SCI、EI等写作与投稿事宜。




同时也可申请加入CVer大群和细分方向技术群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流等群。


一定要备注:研究方向+地点+学校/公司+昵称(如论文写作+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲长按加微信群


▲长按关注CVer公众号

麻烦给我一个在看!

登录查看更多
11

相关内容

【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
61+阅读 · 2020年6月25日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
180+阅读 · 2020年5月29日
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
47+阅读 · 2020年4月19日
【CVPR2020】多模态社会媒体中危机事件分类
专知会员服务
55+阅读 · 2020年4月18日
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
【哈工大SCIR】多模态情感分析简述
深度学习自然语言处理
33+阅读 · 2019年12月14日
BERT模型进军视频领域,看你和面就知会做蛋糕
机器之心
10+阅读 · 2019年9月20日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
KDD 18 & AAAI 19 | 异构信息网络表示学习论文解读
PaperWeekly
21+阅读 · 2019年2月25日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
【谷歌推出TFGAN】开源的轻量级生成对抗网络库
GAN生成式对抗网络
3+阅读 · 2017年12月16日
Teacher-Student Training for Robust Tacotron-based TTS
Learning Embedding Adaptation for Few-Shot Learning
Arxiv
16+阅读 · 2018年12月10日
Arxiv
4+阅读 · 2018年4月10日
VIP会员
相关资讯
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
【哈工大SCIR】多模态情感分析简述
深度学习自然语言处理
33+阅读 · 2019年12月14日
BERT模型进军视频领域,看你和面就知会做蛋糕
机器之心
10+阅读 · 2019年9月20日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
KDD 18 & AAAI 19 | 异构信息网络表示学习论文解读
PaperWeekly
21+阅读 · 2019年2月25日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
【谷歌推出TFGAN】开源的轻量级生成对抗网络库
GAN生成式对抗网络
3+阅读 · 2017年12月16日
Top
微信扫码咨询专知VIP会员