引入多感官数据学习，华人学者Ruohan Gao摘得2021 UT-Austin最佳博士论文奖

会员服务 ·

引入多感官数据学习，华人学者Ruohan Gao摘得2021 UT-Austin最佳博士论文奖

2021 年 10 月 27 日 机器之心

机器之心报道

编辑：蛋酱

UT-Austin 本年度的最佳博士论文奖获得者 Ruohan Gao，目前是斯坦福大学的博士后研究员。

今年 5 月，德克萨斯大学奥斯汀分校（UT-Austin）研究生院公布了 2021 年度各个专业和学生奖项的获奖者。这些奖项旨在表彰研究生院成员在学术、教学和专业服务方面的卓越表现。

在本年度的评选中，华人学者 Ruohan Gao 的博士学位论文《Look and Listen: From Semantic to Spatial Audio-Visual Perception》获得了 Michael H. Granof 奖。

杰出博士论文奖设立于 1979 年，旨在表彰出色的研究以及鼓励最高的研究、写作、学术水平。每年颁发三个奖项，其中一篇会被选中获得该校的最佳论文奖「Michael H. Granof 奖」。杰出论文奖获得者将获得 5000 美元奖金，Granof 奖获得者获得 6000 美元奖金。

Ruohan Gao

Ruohan Gao2015 年于香港中文大学（CUHK）信息工程系获得一等荣誉学位，导师为刘永昌（Wing Cheong Lau）教授。

博士期间，Ruohan Gao 师从 Kristen Grauman 教授。他的研究兴趣是计算机视觉、机器学习、数据挖掘等，特别是视频中的多模态学习和多模态下的 embodied learning。2021 年初，Ruohan Gao 从德克萨斯大学奥斯汀分校获得博士学位。

目前，Ruohan Gao 是斯坦福大学视觉与学习实验室（SVL）的博士后研究员。

此外，Ruohan Gao 还获得过谷歌博士生奖研金（Google Ph.D Fellowship）、Adobe 研究奖研金（Adobe Research Fellowship）等荣誉。

这篇论文研究了什么？

论文链接： https://ai.stanford.edu/~rhgao/Ruohan_Gao_dissertation.pdf

理解场景和事件本质上是一种多模态经验。人们通过观察、倾听 (以及触摸、嗅和品尝) 来感知世界，特别是物体发出的声音，无论是主动产生的还是偶然发出的，都提供了关于自身物理属性和空间位置的有价值的信号，正如钹在舞台上撞击，鸟在树上鸣叫，卡车沿着街区疾驰，银器在抽屉里叮当作响……

尽管通过「看」，也就是根据物体、行为或人的外表检测的识别取得了重大进展，但它往往不能够「听」。在这篇论文中，作者证明了与视觉场景和事件同步的音频可以作为丰富的训练信号来源，用于学习 (视听) 视觉模型。此外，作者开发了计算模型，利用音频中的语义和空间信号，从连续的多模态观测中理解人、地点和事物。

当前大多数计算机视觉系统的现状是从大量「无声」数据集的标记图像中学习，而该论文研究目标是既要会倾听，又要了解视觉世界。

作者表示，受到人类利用所有感官对世界进行感知的启发，自己的长期研究目标是建立一个系统，通过结合所有的多感官输入，能够像人类一样感知世界。在论文的最后一章，作者概述了在此博士论文之外希望追求的未来研究方向。

图 1.2: 音频本身是一个监督信号，用于语义和空间理解。

研究的首要目标是从视频和嵌入智能体中复现视听模型: 当多个声源存在时，算法如何知道发声对象是什么以及在哪里？这些视听模型如何在传统的视听任务有所提升？为了解决这些问题，该研究利用了音频中的语义和空间信号，从连续的多模态观测中理解人、地点和事物(图 1.2)。

这篇论文研究了以下四个重要问题，以逐步接近视听场景综合理解的最终目标：

同时观看和聆听包含多个声源的未标记视频，以学习音视频源分离模型(第 3 章、第 4 章和第 5 章)；
利用音频作为预览机制，在未修剪的视频中实现高效的动作识别(第 6 章)；
利用未标记视频中的视觉信息推断双耳音频，将平面单声道音频「提升」为空间化的声音(第 7 章)；
通过回声定位学习空间图像表征，监测来自与物理世界的声学互动(第 8 章)。

作者表示，本论文对视听学习的研究，体现了无监督或自监督的多感官数据学习对人工智能的未来发展具有积极而重要的意义。

更多细节请参见论文原文。

机器翻译模型的变迁

10月27日晚7点，东北大学教授肖桐带来线上分享，系统梳理机器翻译发展的技术脉络，并介绍机器翻译发展历程中的经典工作。同时在QA环节，我们将送出20本《机器翻译：基础与模型》。

关注机动组视频号，立即预约。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

相关内容

德克萨斯大学奥斯汀分校

关注 0

机器人顶会CoRL 2021奖项公布，MIT获最佳论文奖，哥伦比亚等摘得最佳系统论文奖

专知会员服务

9+阅读 · 2021年11月12日

KDD 2021最佳论文等奖项出炉，首尔大学、斯坦福获奖，北理工上榜

专知会员服务

27+阅读 · 2021年8月18日

【伯克利博士论文】面向深度图像合成的机器学习，155页pdf

专知会员服务

36+阅读 · 2021年5月26日

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

专知会员服务

68+阅读 · 2020年11月9日

【伯克利胡戎航博士论文】视觉与语言推理的结构化模型，124页pdf

专知会员服务

43+阅读 · 2020年10月31日

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

专知会员服务

28+阅读 · 2020年8月14日

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

96+阅读 · 2020年6月19日

普林斯顿大学经典书《在线凸优化导论》，178页pdf

专知会员服务

186+阅读 · 2020年2月3日

【ACM Multimedia 2019 Tutorial】学习3D(点云)数据（Learning from 3D (Point Cloud) Data）,国立台湾大学计算机科学与资讯工程学系的教授徐宏民

专知会员服务

35+阅读 · 2019年11月18日

【多模态智能：表示学习、信息融合和应用】Multimodal Intelligence: Representation Learning, Information Fusion, and Applications，芝加哥大学计算机科学系博士zichao Yang、华盛顿大学西雅图分校副教授xiaodong He等

专知会员服务

118+阅读 · 2019年11月11日

谷歌2020博士生奖研金名单出炉，大陆高校无一人入选

AI科技评论

6+阅读 · 2020年10月14日

7篇必读ACM MM 2019论文：图神经网络+多媒体

新智元

43+阅读 · 2019年11月9日

【ICCV2019】最佳论文等奖项出炉！以色列理工学院和Google研究院获最佳论文奖！

专知

10+阅读 · 2019年10月29日

论具身学习及其设计：基于具身认知的视角

MOOC

15+阅读 · 2019年2月18日

动态 | 阿里达摩院引入以色列知名科学家 Lihi Zelnik-Manor 教授

中国人工智能学会

3+阅读 · 2018年11月26日

IEEE Fellow 2019 名单出炉，41位华人学者入选

科学网

4+阅读 · 2018年11月25日

一份AI博士生的ICML2018“学霸”笔记（55页）

大数据文摘

21+阅读 · 2018年7月17日

【CV学霸开讲】卷积神经网络压缩、多模态的语义分析研究

新智元

6+阅读 · 2018年1月26日

【消息】ACM MM 2017多媒体领域各大奖项出炉！自动化所多媒体计算组获得IEEE期刊最佳论文！

中国科学院自动化研究所

7+阅读 · 2017年10月27日

【ICCV2017视觉盛宴概况】何恺明博士包揽最佳论文和最佳学生论文奖！Facebook成大赢家！

专知

5+阅读 · 2017年10月24日

Visual Behaviors and Mobile Information Acquisition

Arxiv

0+阅读 · 2022年2月6日

Acquisition of Chess Knowledge in AlphaZero

Arxiv

14+阅读 · 2021年11月27日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

Recent Advances and Challenges in Task-oriented Dialog System

Arxiv

19+阅读 · 2020年3月19日

SetExpan: Corpus-Based Set Expansion via Context Feature Selection and Rank Ensemble

Arxiv

3+阅读 · 2019年10月17日

S$^\mathbf{4}$L: Self-Supervised Semi-Supervised Learning

Arxiv

5+阅读 · 2019年5月9日

CESI: Canonicalizing Open Knowledge Bases using Embeddings and Side Information

Arxiv

3+阅读 · 2019年2月1日

Learning Matching Models with Weak Supervision for Response Selection in Retrieval-based Chatbots

Arxiv

4+阅读 · 2018年5月7日

Fully Convolutional Networks for Semantic Segmentation

Arxiv

3+阅读 · 2015年3月8日

VIP会员