MIT CSAIL最新论文:跨模态语音和视觉的对齐

2018 年 9 月 19 日 乌镇智库

选自VB

原文|Kyle Wiggers

乌镇智库编译

目前看到的机器学习算法在单一的、重复度较高的任务中表现出色(比如机器合成脑肿瘤扫描图,面部识别等)。

麻省理工计算机科学与人工智能实验室(MIT CSAIL)的研究人员最新发表一篇论文,阐释了一种人工智能的“博学”:一个同样能熟练掌握语音识别和物体识别的模型。

CSAIL的研究员David Harwath与该论文的合著者告诉MIT NEWS:“我们一直想通过人类的其他一些信号信息让语音识别结果更加行云流水,但是一般的机器学习算法无法做到。CSAIL的想法是想让模型像一个初生的孩子一样,踏破碧落黄泉直到地老天荒式的‘走遍’全世界,再描述看到的物体,如此训练模型。”

他们的系统通过听语音样本中的单词并识别图片中的相关区域,两者关联学习识别图片中的对象,且没有依赖转录或者注释,仅仅依靠成对的图像和音频标题进行训练。

这个模型由该团队于2016年的研究中的两个卷积神经网络(CNN)组成:一个处理图像,另一个处理音频谱。

在经过40万个成对图像和语音标题的数据集训练后,系统设法将数百个不同的单词与某个对象相关联,团队成员认为它能够最终迭代,完美适应例如各种场景的语言翻译。

Harwath自己对于这篇论文的看法就很意识流了:这篇论文的最大贡献在于证明一个物体所谓跨模态的对齐(例如视觉和听觉),哪些是一对或者哪些不是一对,有点儿像宇宙大爆炸以后物质分散在四处,又吸引变成行星或者恒星。训练前它们都散落各处,当开始训练时它们又会聚合在一起,阐释了语音词汇和视觉之间,对人类来说更具有意义的语义学上的基础。


乌镇智库 资讯推荐

马云谈AI:未来10-15年传统制造业的痛苦,将远超今天的想象

人工智能下一步突破何在?刘庆峰说了三个方向

干货|百度视觉团队斩获ECCVGoogleAI目标检测竞赛冠军,获奖方案全解读|ECCV2018


推荐阅读

比人工智能威胁更可怕的是,那些曾被你抛弃的互联网软件

尼克谈人工智能的历史、现实与未来




登录查看更多
3

相关内容

【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
46+阅读 · 2020年4月19日
麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》
专知会员服务
50+阅读 · 2020年2月19日
基于显著性的图像分割
AI研习社
7+阅读 · 2019年4月21日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
机器听觉:一、AI在音频处理上的潜力
论智
5+阅读 · 2018年11月25日
MIT设计跨模态系统,让模型“听音识图”
论智
3+阅读 · 2018年9月20日
已删除
将门创投
4+阅读 · 2018年6月4日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Arxiv
3+阅读 · 2019年3月29日
Nocaps: novel object captioning at scale
Arxiv
6+阅读 · 2018年12月20日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
相关资讯
基于显著性的图像分割
AI研习社
7+阅读 · 2019年4月21日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
机器听觉:一、AI在音频处理上的潜力
论智
5+阅读 · 2018年11月25日
MIT设计跨模态系统,让模型“听音识图”
论智
3+阅读 · 2018年9月20日
已删除
将门创投
4+阅读 · 2018年6月4日
相关论文
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Arxiv
3+阅读 · 2019年3月29日
Nocaps: novel object captioning at scale
Arxiv
6+阅读 · 2018年12月20日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
11+阅读 · 2018年5月13日
Top
微信扫码咨询专知VIP会员