题目: Multimodal Intelligence: Representation Learning, Information Fusion, and Applications

摘要: 自2010年以来,深度学习已经彻底改变了语音识别、图像识别和自然语言处理,每一项都涉及到输入信号中的单一模态。然而,人工智能中的许多应用都涉及到一种以上的模式。因此,研究跨多种模式的建模和学习这一更为困难和复杂的问题具有广泛的兴趣。本文对多模态智能的模型和学习方法进行了技术综述。视觉与自然语言的结合已成为计算机视觉和自然语言处理研究领域的一个重要课题。本文从学习多模态表示、多模态信号在不同层次的融合以及多模态应用三个新的角度,对多模态深度学习的最新研究成果进行了综合分析。在多模态表示学习中,我们回顾了嵌入的关键概念,它将多模态信号统一到同一向量空间中,从而实现跨模态信号处理。我们还回顾了为一般下游任务构造和学习的许多嵌入类型的特性。关于多模融合,本文着重介绍了用于集成特定任务的单模信号表示的特殊体系结构。在应用程序方面,涵盖了当前文献中广泛关注的选定领域,包括标题生成、文本到图像生成和可视化问题解答。我们相信,这项检讨有助于社区未来在新兴多模态情报领域的研究。

作者简介:

Zichao Yang (杨子超),他是芝加哥大学计算机科学系的博士生。他对机器学习、深度学习及其在计算机视觉、自然语言处理中的应用感兴趣。在到CMU之前,他获得了香港大学的硕士学位,上海交通大学的学士学位。他之前曾在谷歌DeepMind实习,与Chris Dyer和Phil Blunsom合作,MSR与He Xiaodong、Gao Jianfeng和Li Deng合作。 个人主页:http://www.cs.cmu.edu/~zichaoy/

Xiaodong He(何晓东)是华盛顿大学西雅图分校电气工程系的副教授。他也是微软研究中心的首席研究员,华盛顿州雷德蒙德。1996年获清华大学(北京)学士学位,1999年获中国科学院(北京)硕士学位,2003年获密苏里哥伦比亚大学博士学位。他的研究兴趣在于人工智能领域,包括深度学习、语音、自然语言、计算机视觉、信息检索和知识表示与管理。他撰写/合著了100多篇论文和一本书,并在ACL、CVPR、SIGIR、WWW、CIKM、NIPS、ICLR、IEEE TASLP、Proc上发表。IEEE、IEEE SPM等场馆。他和同事开发了MSR-NRC-SRI条目和MSR条目,分别在2008年NIST机器翻译评估和2011年IWSLT评估(中英文)中获得第一名,并开发了MSR图像字幕系统,在2015年的MS COCO字幕挑战赛中获得一等奖。他曾在多家IEEE期刊担任编辑职务,担任NAACL-HLT 2015地区主席,并在主要演讲和语言处理会议的组织委员会/项目委员会任职。他是IEEESLTC的当选成员,任期2015-2017年。他是IEEE高级成员,2016年IEEE西雅图分部主席。 个人主页:http://faculty.washington.edu/xiaohe/

Li Deng是一位经验丰富的首席执行官,在高科技行业有着丰富的工作经验。在人工智能、机器学习、数学建模、计算机科学、语音识别、自然语言处理、深度学习、神经网络、大数据分析、财务和统计建模等方面具有较强的技术、执行管理和业务开发专业技能。等

成为VIP会员查看完整内容
0
84

相关内容

Li Deng是一位经验丰富的首席执行官,在高科技行业有着丰富的工作经验。在人工智能、机器学习、数学建模、计算机科学、语音识别、自然语言处理、深度学习、神经网络、大数据分析、财务和统计建模等方面具有较强的技术、执行管理和业务开发专业技能。

题目: A Survey on Deep Geometry Learning: From a Representation Perspective

摘 要:

目前,研究人员已经在利用深度学习处理二维图像方面取得了很大的成功。近年来,三维计算机视觉和几何深度学习越来越受到人们的重视。针对不同的应用,提出了许多先进的三维造型技术。与二维图像可以由像素的规则网格统一表示不同,三维图形具有多种表示,如深度和多视图图像、基于体素的表示、基于点的表示、基于网格的表示、隐式的表面表示等。然而,不同应用程序的性能在很大程度上取决于所使用的表示,并且没有一种惟一的表示可以适用于所有应用程序。因此,在本次调查中,我们从表象的角度回顾了三维几何深度学习的最新发展,总结了不同表象在不同应用中的优缺点。我们也提出现有的数据集在这些表示和进一步讨论未来的研究方向。

成为VIP会员查看完整内容
0
34

题目: Review: deep learning on 3D point clouds

简介:

点云是在三维度量空间中定义的点集。点云已经成为三维表示中最重要的数据格式之一。由于激光雷达等获取设备的可用性增加以及机器人、自动驾驶、增强和虚拟现实等领域的应用增加,它越来越受欢迎。深度学习现在是计算机视觉中最强大的数据处理工具,成为分类、分割和检测等任务的首选技术。深度学习技术主要应用于具有结构化网格的数据,而点云则是非结构化的。点云的无结构使得深度学习直接处理点云非常具有挑战性。早期的方法通过将点云预处理成结构化的网格格式来克服这一挑战,代价是计算成本的增加或深度信息的丢失。然而,最近许多先进的深度学习技术正在开发中,这些技术可以直接操作点云。这篇论文包含了对当前最先进的深度学习技术的调查,这些技术主要集中在点云数据上。我们首先简要地讨论了在点云上直接使用深度学习所面临的主要挑战,我们还简要地讨论了通过将点云预处理成结构化网格来克服这些挑战的早期方法。然后,我们回顾了各种先进的深度学习方法,直接处理点云的非结构化形式。我们介绍了流行的3D点云基准数据集。我们还进一步讨论了深度学习在当前流行的三维视觉任务中的应用,包括分类、分割和检测。

作者:

王程,福建省特支“双百计划”入选者、福建省科技创新领军人才、厦门大学计算机科学系教授、博士生导师、副院长。研究方向:三维视觉,空间大数据分析,激光雷达,虚拟/增强现实。个人主页:http://www.cwang93.net/#

成为VIP会员查看完整内容
0
41

题目: Multimodal Model Agnostic Meta-Learning via Task-Aware Modulation

简介:

模型不可知元学习者的目标是从相似的任务中获取元学习参数,以适应分布相同但梯度更新较少的新任务。由于模型选择的灵活性,这些框架在诸如少镜头图像分类和增强学习等多个领域表现出了良好的性能。然而,此类框架的一个重要限制是,它们寻求在整个任务分布中共享的公共初始化,这极大地限制了它们能够学习的任务分布的多样性。在本文中,我们增强了MAML的能力,以识别从多模式任务分布中采样的任务模式,并通过梯度更新快速适应。具体来说,我们提出了一个多模态MAML框架,该框架能够根据所识别的模式调整其元学习先验参数,从而实现更高效的快速适应。我们在一组不同的少镜头学习任务上对所提出的模型进行评估,包括回归、图像分类和强化学习。结果不仅证明了我们的模型在调整元学习先验以响应任务特征方面的有效性,而且表明了多模态分布的训练比单模态训练有更好的效果。

邀请嘉宾:

Risto Vuorio是密歇根大学Satinder Singh实验室的访问学者,致力于深度强化学习和终身学习,对开发新的增强学习算法并将其应用于新问题很感兴趣。

Shao-Hua Sun是南加利福尼亚大学(USC)计算机科学专业的三年级博士生,与Joseph J. Lim教授一起在视觉与机器人认知学习实验室(CLVR)担任Annenberg研究员。在加入USC之前,在国立台湾大学(NTU)电子工程系获得学士学位。研究兴趣横跨深度学习、计算机视觉、强化学习、元学习、机器人学习等领域。

成为VIP会员查看完整内容
0
16

论文题目: Rule-Guided Compositional Representation Learning on Knowledge Graphs

摘要:

知识图的表示学习是将知识图中的实体和关系嵌入到低维连续向量空间中。早期的KG嵌入方法只关注编码在三元组中的结构化信息,由于KG的结构稀疏性,其性能受到限制。最近的一些尝试考虑路径信息来扩展KGs的结构,但是在获取路径表示的过程中缺乏可解释性。本文提出了一种新的基于规则和路径的联合嵌入(RPJE)方案,该方案充分利用了逻辑规则的可解释性和准确性、KG嵌入的泛化性以及路径的补充语义结构。具体来说,首先从KG中挖掘出不同长度(规则体中的关系数)的Horn子句形式的逻辑规则,并对其进行编码,用于表示学习。然后,利用长度2的规则来精确地组合路径,而使用长度1的规则来明确地创建关系之间的语义关联和约束关系嵌入。优化时还考虑了规则的置信度,保证了规则在表示学习中的可用性。大量的实验结果表明,RPJE在KG完成任务上的表现优于其他最先进的基线,这也证明了利用逻辑规则和路径来提高表示学习的准确性和可解释性的优越性。

论文作者:

张永飞:男,博士,副教授,博士生导师。2005年毕业于北京航空航天大学自动化学院,获学士学位,免推直博;2011年毕业于北京航空航天大学模式识别与智能系统专业,获博士学位。2007年至2009年在美国密苏里大学哥伦比亚分校电气与工程学院访问。2011年加入北航计算机学院数字媒体北京市重点实验室。科研工作:目前主要研究方向包括(1)(视觉)大数据智能分析处理;(2)高性能实时图像/视频编解码与可靠传输。主持国家自然科学基金项目面上项目、国家重点研发计划项目子课题、国家自然科学基金重点项目子课题、863项目子课题、国家重点实验室自主课题、企业合作预研项目等多项科研任务;作为技术骨干参与国家973计划、杰出青年基金、国家自然科学基金项目等多项国家级课题的科研工作等。

刘偲,计算机学院副教授、博导。 2012年博士毕业于中科院自动化所,2009-2014年于新加坡国立大学(NUS)任研究助理、博后。2016年在微软亚洲研究院(MSRA)任铸星计划研究员。2014-2018在中国科学院信工所任副研究员。其研究方向是跨模态多媒体智能分析,包括自然语言处理(NLP)和计算机视觉(CV)。共发表了CCF A类论文 40余篇,其研究成果发表于TPAMI、IJCV、TIP、CVPR、ICCV和ACM MM等。 Google Scholar引用4000+次。2017年入选中国科协青年人才托举工程,2017年获CCF-腾讯犀牛鸟专利奖。任2017中国计算机大会(CNCC)主论坛特邀讲者,2017 CCF青年精英大会“青年技术秀”讲者。获2017 ACM 中国新星提名奖,2017国际计算机学会人工智能专委会中国区(ACM SIGAI China) 新星奖,2018吴文俊人工智能优秀青年奖。 另外,她获CCF A类会议ACM MM 2012最佳技术演示奖,ACM MM 2013最佳论文奖。指导学生获得ChinaMM2018 最佳学生论文奖。带领学生多次获得国际、国内竞赛冠军: 2016年获CCF大数据与计算智能大赛(BDCI)综合特等奖,2017年获CVPR Look Into Person Challenge Human Parsing Track冠军,2019年获得ICCV Youtube-Video Object Segmentation 竞赛冠军。 主办了ECCV 2018和ICCV 2019‘Person in Context’workshop。担任中国图像图形学学会理事、副秘书长。任ICCV 2019、CVPR 2020 Area chair,AAAI 2019、IJCAI2019、IJCAI 2020 SPC。

成为VIP会员查看完整内容
0
61

报告主题: 语言与视觉多模态智能的进展

报告摘要: 基于近年来深度学习技术对语音,语言,视觉等子领域的推动,在语言和视觉跨模态交叉学科领域我们也取得了很多激动人心的进展,包括跨语言与图像的理解、推理和生成。具体而言,语言与视觉多模态智能的研究可分为多个层次,包括从底层的多模态表征学习,到上层的语言和视觉表征的融合与对应,再到更上层的应用比如图像描述、视觉问答、文字到图像合成等。同时各个层次的模型并不是万却独立,而往往是通过端到端的训练联合优化的。在报告中我将结合经典的语言与视觉多模态应用介绍跨语言和视觉的语义表示建模及跨模态信息融合。同时,我还将探讨多模态智能中的可解释性和可控性问题。最后,对多模态智能未来的突破进行了展望。

邀请嘉宾: 何晓冬博士是京东人工智能研究院常务副院长,深度学习及语音和语言实验室的负责人。他还在华盛顿大学(西雅图)、香港中文大学(深圳)、同济大学、及中央美术学院任兼职教授和荣誉教授。在加入京东集团之前,他曾担任微软雷德蒙德研究院深度学习技术中心的首席研究员和负责人。他的研究主要集中在人工智能领域,包括深度学习,自然语言处理,语音识别,计算机视觉,信息检索和多模态智能。他与合作者在这些领域发表了100多篇论文,谷歌学术统计引用数超过13000次,并多次获得优秀论文奖及赢得重要的人工智能方面大赛。他与合作者发明的深层结构化语义模型(DSSM/C-DSSM),分层注意力网络(HAN),CaptionBot,SAN,AttnGAN,BUTD Attention等广泛应用于语言,视觉,IR和人机对话等任务。基于其在自然语言和视觉技术及多模态信息处理方面的贡献,他于2018年入选IEEE Fellow。

成为VIP会员查看完整内容
0
32

Deep learning has revolutionized speech recognition, image recognition, and natural language processing since 2010, each involving a single modality in the input signal. However, many applications in artificial intelligence involve more than one modality. It is therefore of broad interest to study the more difficult and complex problem of modeling and learning across multiple modalities. In this paper, a technical review of the models and learning methods for multimodal intelligence is provided. The main focus is the combination of vision and natural language, which has become an important area in both computer vision and natural language processing research communities. This review provides a comprehensive analysis of recent work on multimodal deep learning from three new angles - learning multimodal representations, the fusion of multimodal signals at various levels, and multimodal applications. On multimodal representation learning, we review the key concept of embedding, which unifies the multimodal signals into the same vector space and thus enables cross-modality signal processing. We also review the properties of the many types of embedding constructed and learned for general downstream tasks. On multimodal fusion, this review focuses on special architectures for the integration of the representation of unimodal signals for a particular task. On applications, selected areas of a broad interest in current literature are covered, including caption generation, text-to-image generation, and visual question answering. We believe this review can facilitate future studies in the emerging field of multimodal intelligence for the community.

0
61
下载
预览

主题:Deep Learning for Graphs: Models and Applications

摘要:图提供了多种类型的数据的通用表示,而深度学习在表示学习方面显示了巨大的能力。因此,用图连接深度学习提供了机会,使各种现实世界问题的通用解决方案成为可能。然而,传统的深度学习技术对常规网格数据(如图像和序列)具有破坏性,因此不能直接应用于图结构数据。因此,将这两个领域结合起来面临着巨大的挑战。在本教程中,我将全面概述图深度学习的最新进展,包括模型和应用。特别地,我将介绍一些基本概念,回顾最先进算法,并举例说明各种重要的应用。最后,我将通过讨论开放问题和挑战来总结本教程。

嘉宾简介:唐继良(Jiang Tang)自2016年秋季@起担任密歇根州立大学计算机科学与工程系的助理教授。在此之前,他是Yahoo Research的研究科学家,并于2015年从亚利桑那州立大学获得博士学位。他的研究兴趣包括社交计算,数据挖掘和机器学习及其在教育中的应用。他曾获得2019年NSF职业奖,2015年KDD最佳论文亚军和6项最佳论文奖,包括WSDM2018和KDD2016。他是会议组织者(例如KDD,WSDM和SDM)和期刊编辑(例如TKDD)。他的研究成果发表在高排名的期刊和顶级会议论文集上,获得了数千篇引文(Google学术搜索)和广泛的媒体报道。

PPT链接:https://pan.baidu.com/s/1TMv5YsQbwPcRzGy-BkY-bg

成为VIP会员查看完整内容
0
42

题目主题: Dual Learning for Machine Learning

简介:

许多AI任务以双重形式出现,例如英语法语翻译与法语英语翻译,语音识别与语音合成,问题解答与问题生成,图像分类与图像生成。虽然结构对偶性在AI中很常见,但大多数学习算法并未在学习/推理中利用它。双重学习是一种新的学习框架,它利用AI任务的原始-双重结构来获取有效的反馈或正则化信号,从而增强学习/推理过程。双重学习已在不同的学习环境中进行了研究,并应用于不同的应用程序。 在本教程中,我们将对双重学习进行介绍,它由三部分组成。在第一部分中,我们将介绍双重半监督学习,并展示如何有效地一起利用标记和未标记的数据。我们将从神经机器翻译开始,然后转移到其他应用程序。在第二部分中,我们介绍了双重无监督学习,其中的培训是完全无监督的。我们介绍了无监督机器翻译和无监督图像翻译。最后,我们介绍了双重监督学习及其以外的内容,其中包括双重监督学习,双重推理和双重对抗性学习。在本教程的最后,我们提出了双重学习的几个未来方向。

作者介绍:

Tao Qin博士是Microsoft Research Asia机器学习小组的高级首席研究经理。 他的研究兴趣包括机器学习(侧重于深度学习和强化学习),人工智能(对语言理解和计算机视觉的应用),游戏理论和多主体系统(对云计算,在线和移动广告的应用, 电子商务),信息检索和计算广告。 他拥有清华大学的博士学位和学士学位。 他是ACM和IEEE的高级会员,也是中国科学技术大学的兼职教授(博士生导师)。

大纲:

  • 动机与介绍
  • 双重半监督学习
  • 双重无监督学习
  • 双重监督学习
  • 总结与展望
成为VIP会员查看完整内容
0
17

题目: Learning Representations via Graph-structured Networks

报告简介: 近年来,在无数的计算机视觉任务中,采用卷积神经网络(ConvNets)的数量急剧增加。卷积的结构被证明在许多任务中都很强大,可以捕获图像像素中的相关性和抽象概念。但是,当计算机视觉处理更困难的AI任务时,ConvNets也被证明缺乏建模许多属性的能力。这些属性包括成对关系,全局上下文以及处理超出空间网格的不规则数据的能力。

一个有效的方向是根据手头的任务来重新组织要使用图形处理的数据,同时构建网络模块,这些模块在图形中的可视元素之间关联和传播信息。我们称这些网络为传播模块,称为图结构网络。在本教程中,我们将介绍一系列有效的图结构网络,包括非局部神经网络,空间传播网络,稀疏高维CNN和场景图网络。我们还将讨论许多视觉问题中仍然存在的相关开放挑战。

报告目录:

  • 可学习的空间传播网络
  • 学习图表示
  • 场景图生成及其在视觉和语言任务中的应用
  • 稀疏高维和内容自适应卷积

部分嘉宾介绍:

Xiaolong Wang,将于2020年秋天加入圣地亚哥圣地亚哥分校(ECE)部门担任助理教授。 目前是加州大学伯克利分校的博士后,与Alexei Efros和Trevor Darrell一起工作。 在卡内基梅隆大学(Carnegie Mellon University)获得机器人学博士学位,博导是Abhinav Gupta。

Sifei Liu ,英伟达研究员,博士就读于加州大学默塞德分校,与杨明教授一起研究计算机视觉,深度学习以及两者的结合。曾于2015年在香港中文大学的多媒体实验室(MMLAB)和2017年NVIDIA Research担任实习生。

成为VIP会员查看完整内容
0
16
小贴士
相关VIP内容
相关论文
Menghan Wang,Yujie Lin,Guli Lin,Keping Yang,Xiao-ming Wu
8+阅读 · 2020年6月1日
Shaoxiong Ji,Shirui Pan,Erik Cambria,Pekka Marttinen,Philip S. Yu
80+阅读 · 2020年2月2日
Wenwu Zhu,Xin Wang,Peng Cui
19+阅读 · 2020年1月2日
Guanglin Niu,Yongfei Zhang,Bo Li,Peng Cui,Si Liu,Jingyang Li,Xiaowei Zhang
7+阅读 · 2019年12月28日
Chao Zhang,Zichao Yang,Xiaodong He,Li Deng
61+阅读 · 2019年11月10日
Continual Unsupervised Representation Learning
Dushyant Rao,Francesco Visin,Andrei A. Rusu,Yee Whye Teh,Razvan Pascanu,Raia Hadsell
5+阅读 · 2019年10月31日
Aravind Sankar,Yanhong Wu,Liang Gou,Wei Zhang,Hao Yang
43+阅读 · 2019年6月15日
AceKG: A Large-scale Knowledge Graph for Academic Data Mining
Ruijie Wang,Yuchen Yan,Jialu Wang,Yuting Jia,Ye Zhang,Weinan Zhang,Xinbing Wang
4+阅读 · 2018年8月7日
Tadas Baltrušaitis,Chaitanya Ahuja,Louis-Philippe Morency
122+阅读 · 2017年8月1日
Top