多模态深度学习:用深度学习的方式融合各种信息

2020 年 12 月 28 日 极市平台
↑ 点击 蓝字  关注极市平台

作者丨Purvanshi Mehta
来源丨AI公园
编辑丨极市平台

极市导读

 

在实践中,对于结合不同模态之间的冲突的任务,通常将不同输入的高级嵌入连接起来,然后应用softmax去结合不同模态之间的冲突,但它将给予所有子模式同等的重要性。文章讲述采用对网络进行加权组合的方式,在两个现实多模态数据集上得到了SOTA。 >>加入极市CV技术交流群,走在计算机视觉的最前沿


多模态数据

我们对世界的体验是多模态的 —— 我们看到物体,听到声音,感觉到质地,闻到气味,尝到味道。模态是指某件事发生或经历的方式,当一个研究问题包含多个模态时,它就具有多模态的特征。为了让人工智能在理解我们周围的世界方面取得进展,它需要能够同时解释这些多模态的信号。例如,图像通常与标签和文本解释相关联,文本包含图像,以更清楚地表达文章的中心思想。不同的模态具有非常不同的统计特性。

多模态深度学习

虽然结合不同的模态或信息类型来提高效果从直观上看是一项很有吸引力的任务,但在实践中,如何结合不同的噪声水平和模态之间的冲突是一个挑战。此外,模型对预测结果有不同的定量影响。在实践中最常见的方法是将不同输入的高级嵌入连接起来,然后应用softmax。

多模态深度学习的例子,其中使用不同类型的神经网络提取特征

这种方法的问题是,它将给予所有子网络/模式同等的重要性,这在现实情况中是非常不可能的。

所有的模态对预测都有相同的贡献

对网络进行加权组合

我们采用子网络的加权组合,以便每个输入模态可以对输出预测有一个学习贡献(Theta)。我们的优化问题变成-对每个子网络给出Theta权值后的损失函数。

将权值附加到子网后预测输出。

把所有的都用起来!

准确性和可解释性

我们在两个现实多模态数据集上得到了SOTA:Multimodal Corpus of Sentiment Intensity(MOSI) 数据集 —— 有417个标注过的视频,每毫秒标注的音频特征。共有2199个标注数据点,其中情绪强度定义为从strongly negative到strongly positive,线性尺度从- 3到+3。

模态包括:

1、文本

2、音频

3、语言

每种模态对情绪预测的贡献量

Transcription Start Site Prediction(TSS)数据集 —— Transcription是基因表达的第一步,在这一步中,特定的DNA片段被复制到RNA (mRNA)中。Transcription起始位点是transcription开始的位置。DNA片段的不同部分具有不同的特性,从而影响其存在。我们将TSS分为三个部分:

  1. 上游DNA
  2. 下游DNA
  3. TSS位置

我们取得了前所未有的改善,比之前的最先进的结果3%。使用TATA box的下游DNA区域对这一过程影响最大。

英文原文:https://towardsdatascience.com/multimodal-deep-learning-ce7d1d994f4


推荐阅读




添加极市小助手微信(ID : cvmart2),备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳),即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群:月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

△长按添加极市小助手

△长按关注极市平台,获取 最新CV干货

觉得有用麻烦给个在看啦~   
登录查看更多
0

相关内容

专知会员服务
25+阅读 · 2020年12月17日
基于深度学习的数据融合方法研究综述
专知会员服务
136+阅读 · 2020年12月10日
基于深度学习的手语识别综述
专知会员服务
46+阅读 · 2020年5月18日
多模态深度学习综述,18页pdf
专知会员服务
213+阅读 · 2020年3月29日
专知会员服务
199+阅读 · 2020年3月6日
2019->2020必看的十篇「深度学习领域综述」论文
专知会员服务
270+阅读 · 2020年1月1日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
专知会员服务
93+阅读 · 2019年10月18日
多模态深度学习综述,18页pdf
专知
48+阅读 · 2020年3月29日
2019->2020必看的十篇「深度学习领域综述」论文
极市平台
23+阅读 · 2020年1月2日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
深度学习面试100题(第41-45题)
七月在线实验室
15+阅读 · 2018年7月18日
基于深度学习的文本分类?
数萃大数据
9+阅读 · 2018年3月4日
类脑信息处理研究取得进展
人工智能学家
5+阅读 · 2018年1月29日
【深度学习】神经网络和深度学习简史
产业智能官
8+阅读 · 2017年11月16日
Arxiv
11+阅读 · 2021年3月25日
Directions for Explainable Knowledge-Enabled Systems
Arxiv
26+阅读 · 2020年3月17日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Arxiv
5+阅读 · 2018年12月18日
Arxiv
8+阅读 · 2018年11月21日
Arxiv
11+阅读 · 2018年5月21日
VIP会员
相关VIP内容
专知会员服务
25+阅读 · 2020年12月17日
基于深度学习的数据融合方法研究综述
专知会员服务
136+阅读 · 2020年12月10日
基于深度学习的手语识别综述
专知会员服务
46+阅读 · 2020年5月18日
多模态深度学习综述,18页pdf
专知会员服务
213+阅读 · 2020年3月29日
专知会员服务
199+阅读 · 2020年3月6日
2019->2020必看的十篇「深度学习领域综述」论文
专知会员服务
270+阅读 · 2020年1月1日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
专知会员服务
93+阅读 · 2019年10月18日
相关资讯
多模态深度学习综述,18页pdf
专知
48+阅读 · 2020年3月29日
2019->2020必看的十篇「深度学习领域综述」论文
极市平台
23+阅读 · 2020年1月2日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
深度学习面试100题(第41-45题)
七月在线实验室
15+阅读 · 2018年7月18日
基于深度学习的文本分类?
数萃大数据
9+阅读 · 2018年3月4日
类脑信息处理研究取得进展
人工智能学家
5+阅读 · 2018年1月29日
【深度学习】神经网络和深度学习简史
产业智能官
8+阅读 · 2017年11月16日
相关论文
Arxiv
11+阅读 · 2021年3月25日
Directions for Explainable Knowledge-Enabled Systems
Arxiv
26+阅读 · 2020年3月17日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Arxiv
5+阅读 · 2018年12月18日
Arxiv
8+阅读 · 2018年11月21日
Arxiv
11+阅读 · 2018年5月21日
Top
微信扫码咨询专知VIP会员