报告主题: 语言与视觉多模态智能的进展
报告摘要: 基于近年来深度学习技术对语音,语言,视觉等子领域的推动,在语言和视觉跨模态交叉学科领域我们也取得了很多激动人心的进展,包括跨语言与图像的理解、推理和生成。具体而言,语言与视觉多模态智能的研究可分为多个层次,包括从底层的多模态表征学习,到上层的语言和视觉表征的融合与对应,再到更上层的应用比如图像描述、视觉问答、文字到图像合成等。同时各个层次的模型并不是万却独立,而往往是通过端到端的训练联合优化的。在报告中我将结合经典的语言与视觉多模态应用介绍跨语言和视觉的语义表示建模及跨模态信息融合。同时,我还将探讨多模态智能中的可解释性和可控性问题。最后,对多模态智能未来的突破进行了展望。
邀请嘉宾: 何晓冬博士是京东人工智能研究院常务副院长,深度学习及语音和语言实验室的负责人。他还在华盛顿大学(西雅图)、香港中文大学(深圳)、同济大学、及中央美术学院任兼职教授和荣誉教授。在加入京东集团之前,他曾担任微软雷德蒙德研究院深度学习技术中心的首席研究员和负责人。他的研究主要集中在人工智能领域,包括深度学习,自然语言处理,语音识别,计算机视觉,信息检索和多模态智能。他与合作者在这些领域发表了100多篇论文,谷歌学术统计引用数超过13000次,并多次获得优秀论文奖及赢得重要的人工智能方面大赛。他与合作者发明的深层结构化语义模型(DSSM/C-DSSM),分层注意力网络(HAN),CaptionBot,SAN,AttnGAN,BUTD Attention等广泛应用于语言,视觉,IR和人机对话等任务。基于其在自然语言和视觉技术及多模态信息处理方面的贡献,他于2018年入选IEEE Fellow。