MIT CSAIL最新论文：跨模态语音和视觉的对齐 - 专知

会员服务 ·

0

MIT CSAIL最新论文：跨模态语音和视觉的对齐

2018 年 9 月 19 日 乌镇智库

选自VB

原文|Kyle Wiggers

乌镇智库编译

目前看到的机器学习算法在单一的、重复度较高的任务中表现出色（比如机器合成脑肿瘤扫描图，面部识别等）。

麻省理工计算机科学与人工智能实验室（MIT CSAIL）的研究人员最新发表一篇论文，阐释了一种人工智能的“博学”：一个同样能熟练掌握语音识别和物体识别的模型。

CSAIL的研究员David Harwath与该论文的合著者告诉MIT NEWS：“我们一直想通过人类的其他一些信号信息让语音识别结果更加行云流水，但是一般的机器学习算法无法做到。CSAIL的想法是想让模型像一个初生的孩子一样，踏破碧落黄泉直到地老天荒式的‘走遍’全世界，再描述看到的物体，如此训练模型。”

他们的系统通过听语音样本中的单词并识别图片中的相关区域，两者关联学习识别图片中的对象，且没有依赖转录或者注释，仅仅依靠成对的图像和音频标题进行训练。

这个模型由该团队于2016年的研究中的两个卷积神经网络（CNN）组成：一个处理图像，另一个处理音频谱。

在经过40万个成对图像和语音标题的数据集训练后，系统设法将数百个不同的单词与某个对象相关联，团队成员认为它能够最终迭代，完美适应例如各种场景的语言翻译。

Harwath自己对于这篇论文的看法就很意识流了：这篇论文的最大贡献在于证明一个物体所谓跨模态的对齐（例如视觉和听觉），哪些是一对或者哪些不是一对，有点儿像宇宙大爆炸以后物质分散在四处，又吸引变成行星或者恒星。训练前它们都散落各处，当开始训练时它们又会聚合在一起，阐释了语音词汇和视觉之间，对人类来说更具有意义的语义学上的基础。

乌镇智库资讯推荐

马云谈AI：未来10-15年传统制造业的痛苦，将远超今天的想象

人工智能下一步突破何在？刘庆峰说了三个方向

干货|百度视觉团队斩获ECCVGoogleAI目标检测竞赛冠军，获奖方案全解读|ECCV2018

推荐阅读

比人工智能威胁更可怕的是，那些曾被你抛弃的互联网软件

尼克谈人工智能的历史、现实与未来

登录查看更多

3

相关内容

跨模态

【CVPR2020-Facebook AI】前置不变表示的自监督学习

【CVPR2020-Facebook AI】前置不变表示的自监督学习

专知会员服务

47+阅读 · 2020年4月19日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

30篇「CVPR2020」高赞论文抢先看！看计算机视觉2020在研究什么？

30篇「CVPR2020」高赞论文抢先看！看计算机视觉2020在研究什么？

专知会员服务

50+阅读 · 2020年2月28日

如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您，附论文代码

如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您，附论文代码

专知会员服务

85+阅读 · 2020年2月27日

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

专知会员服务

51+阅读 · 2020年2月19日

【Nature机器智能子刊新论文】学习作为概念系统的无监督对齐

【Nature机器智能子刊新论文】学习作为概念系统的无监督对齐

专知会员服务

11+阅读 · 2020年1月18日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

38+阅读 · 2020年1月13日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

专知会员服务

23+阅读 · 2019年11月26日

【CCL 2019】特邀报告，语言与视觉多模态智能的进展，京东AI研究院常务副院长何晓冬

【CCL 2019】特邀报告，语言与视觉多模态智能的进展，京东AI研究院常务副院长何晓冬

专知会员服务

49+阅读 · 2019年11月11日

基于显著性的图像分割

基于显著性的图像分割

AI研习社

7+阅读 · 2019年4月21日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

机器听觉：一、AI在音频处理上的潜力

机器听觉：一、AI在音频处理上的潜力

论智

5+阅读 · 2018年11月25日

MIT谷歌伯克利三强联手，AI创造超现实主义3D运动雕塑

MIT谷歌伯克利三强联手，AI创造超现实主义3D运动雕塑

新智元

5+阅读 · 2018年9月23日

MIT设计跨模态系统，让模型“听音识图”

MIT设计跨模态系统，让模型“听音识图”

论智

3+阅读 · 2018年9月20日

腾讯AI Lab 8篇论文入选，从0到1解读语音交互能力 | InterSpeech 2018

腾讯AI Lab 8篇论文入选，从0到1解读语音交互能力 | InterSpeech 2018

AI科技评论

12+阅读 · 2018年9月7日

已删除

将门创投

4+阅读 · 2018年6月4日

前沿 | 剧本自动生成电影：杜克大学提出AI视频生成新方法

前沿 | 剧本自动生成电影：杜克大学提出AI视频生成新方法

机器之心

4+阅读 · 2018年2月24日

【阿里ICCV论文技术解读】基于层次化多模态LSTM的视觉语义联合嵌入

【阿里ICCV论文技术解读】基于层次化多模态LSTM的视觉语义联合嵌入

新智元

4+阅读 · 2017年10月24日

谷歌推出AVA数据库：让机器识别视频中人类行为 | 研究

谷歌推出AVA数据库：让机器识别视频中人类行为 | 研究

网易智能菌

3+阅读 · 2017年10月22日

Compositional Generalization in Image Captioning

Compositional Generalization in Image Captioning

Arxiv

3+阅读 · 2019年9月16日

Object Hallucination in Image Captioning

Arxiv

3+阅读 · 2019年3月29日

Nocaps: novel object captioning at scale

Nocaps: novel object captioning at scale

Arxiv

6+阅读 · 2018年12月20日

Unsupervised Image Captioning

Arxiv

7+阅读 · 2018年11月27日

Neural source-filter-based waveform model for statistical parametric speech synthesis

Arxiv

4+阅读 · 2018年11月26日

Image Captioning

Arxiv

11+阅读 · 2018年5月13日

Reciprocal Attention Fusion for Visual Question Answering

Arxiv

5+阅读 · 2018年5月11日

Generating Diverse and Accurate Visual Captions by Comparative Adversarial Learning

Arxiv

10+阅读 · 2018年4月11日

Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs

Arxiv

6+阅读 · 2018年3月21日

DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning

Arxiv

20+阅读 · 2018年1月8日

VIP会员

相关主题

麻省理工学院

机器学习算法

相关VIP内容

【CVPR2020-Facebook AI】前置不变表示的自监督学习

【CVPR2020-Facebook AI】前置不变表示的自监督学习

专知会员服务

47+阅读 · 2020年4月19日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

30篇「CVPR2020」高赞论文抢先看！看计算机视觉2020在研究什么？

30篇「CVPR2020」高赞论文抢先看！看计算机视觉2020在研究什么？

专知会员服务

50+阅读 · 2020年2月28日

如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您，附论文代码

如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您，附论文代码

专知会员服务

85+阅读 · 2020年2月27日

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

专知会员服务

51+阅读 · 2020年2月19日

【Nature机器智能子刊新论文】学习作为概念系统的无监督对齐

【Nature机器智能子刊新论文】学习作为概念系统的无监督对齐

专知会员服务

11+阅读 · 2020年1月18日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

38+阅读 · 2020年1月13日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

专知会员服务

23+阅读 · 2019年11月26日

【CCL 2019】特邀报告，语言与视觉多模态智能的进展，京东AI研究院常务副院长何晓冬

【CCL 2019】特邀报告，语言与视觉多模态智能的进展，京东AI研究院常务副院长何晓冬

专知会员服务

49+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄乌战争中的无人系统：新的战争方式与新兴趋势——来自前线的印象》报告

《海上自主水面船舶远程操作中心：安全可持续运行的多维度分析》

多模态大语言模型下游调优中“保持自我”的重要性

隐身自主无人水下航行器技术如何变革水下作战并重塑海军竞争

相关资讯

基于显著性的图像分割

基于显著性的图像分割

AI研习社

7+阅读 · 2019年4月21日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

机器听觉：一、AI在音频处理上的潜力

机器听觉：一、AI在音频处理上的潜力

论智

5+阅读 · 2018年11月25日

MIT谷歌伯克利三强联手，AI创造超现实主义3D运动雕塑

MIT谷歌伯克利三强联手，AI创造超现实主义3D运动雕塑

新智元

5+阅读 · 2018年9月23日

MIT设计跨模态系统，让模型“听音识图”

MIT设计跨模态系统，让模型“听音识图”

论智

3+阅读 · 2018年9月20日

腾讯AI Lab 8篇论文入选，从0到1解读语音交互能力 | InterSpeech 2018

腾讯AI Lab 8篇论文入选，从0到1解读语音交互能力 | InterSpeech 2018

AI科技评论

12+阅读 · 2018年9月7日

已删除

将门创投

4+阅读 · 2018年6月4日

前沿 | 剧本自动生成电影：杜克大学提出AI视频生成新方法

前沿 | 剧本自动生成电影：杜克大学提出AI视频生成新方法

机器之心

4+阅读 · 2018年2月24日

【阿里ICCV论文技术解读】基于层次化多模态LSTM的视觉语义联合嵌入

【阿里ICCV论文技术解读】基于层次化多模态LSTM的视觉语义联合嵌入

新智元

4+阅读 · 2017年10月24日

谷歌推出AVA数据库：让机器识别视频中人类行为 | 研究

谷歌推出AVA数据库：让机器识别视频中人类行为 | 研究

网易智能菌

3+阅读 · 2017年10月22日

相关论文

Compositional Generalization in Image Captioning

Compositional Generalization in Image Captioning

Arxiv

3+阅读 · 2019年9月16日

Object Hallucination in Image Captioning

Arxiv

3+阅读 · 2019年3月29日

Nocaps: novel object captioning at scale

Nocaps: novel object captioning at scale

Arxiv

6+阅读 · 2018年12月20日

Unsupervised Image Captioning

Arxiv

7+阅读 · 2018年11月27日

Neural source-filter-based waveform model for statistical parametric speech synthesis

Arxiv

4+阅读 · 2018年11月26日

Image Captioning

Arxiv

11+阅读 · 2018年5月13日

Reciprocal Attention Fusion for Visual Question Answering

Arxiv

5+阅读 · 2018年5月11日

Generating Diverse and Accurate Visual Captions by Comparative Adversarial Learning

Arxiv

10+阅读 · 2018年4月11日

Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs

Arxiv

6+阅读 · 2018年3月21日

DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning

Arxiv

20+阅读 · 2018年1月8日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

精排模型-从MLP到行为序列：DIN、DIEN、MIMN、SIM、DSIN

微信扫码咨询专知VIP会员