VALSE 短教程第03期：视觉与语言智能

会员服务 ·

VALSE 短教程第03期：视觉与语言智能

2021 年 9 月 18 日 VALSE

为了帮助视觉与学习领域相关从业者快速、透彻地了解某个前沿方向或技术领域，VALSE最新推出了《VALSE短教程》栏目。该栏目将逐渐邀请若干研究方向的资深专家，系统深入地讲解某个研究方向，录制讲课视频，并上传VALSE B站

(https://space.bilibili.com/562085182/)，供大家随时查看和学习。

本期短教程我们选取的研究领域是《视觉与语言智能》，并非常荣幸地邀请到了粤港澳大湾区数字经济研究院的张磊首席研究员及微软研究院的张鹏川高级研究员作为讲师。

观看网址：

https://www.bilibili.com/video/BV1Af4y1n7zx/

短教程讲师：张磊 (粤港澳大湾区数字经济研究院)

讲师简介：

张磊是粤港澳大湾区数字经济研究院(IDEA)的讲席科学家，负责计算机视觉与机器人研究方向。他自2001年起曾在微软亚洲研究院、微软总部研究院及计算机视觉相关产品部门任首席研究员，长期带领研究组从事计算机视觉方向的基础研究以及在大规模图像分析、物体检测、视觉语言多模态理解方面的应用，研究成果被广泛用于微软必应搜索及认知服务云计算平台。他在计算机视觉等相关领域发表论文150多篇，并拥有60多项美国授权专利。因其对大规模图像识别和多媒体信息检索方面做出的贡献，他于2020年获选为IEEE Fellow。

短教程讲师：张鹏川 (微软研究院)

讲师简介：

张鹏川是微软研究院雷德蒙德实验室的高级研究员。2012年毕业于清华大学基础科学实验班，获得理学学士学位。2017 年毕业于美国加州理工学院，获得计算与数学科学博士学位，后加入微软研究院从事机器学习研究。他的研究兴趣主要集中在深度学习、数学优化及其在视觉语言智能中的应用领域。在理论方面，他致力于为机器学习开发更自动化、更快的训练算法。在应用方面，他致力于视觉语言（VL）多模态智能的研究，包括视觉语言预训练和各种下游的视觉和多模态任务。他的工作已在顶级机器学习会议（CPVR, ICCV, ECCV, NeurIPS, ICLR, ICML 等）上发表，并出现在多家媒体（Wired、TechCrunch、GeekWire 等）上，并已被应用到多个微软的产品（Azure 认知服务、Bing 多媒体搜索等）中。

短教程摘要：

视觉语言理解是计算机视觉和自然语言理解的交叉研究领域，主要研究多模态的表示学习和各种多模态任务。本教程分为三个讲座：第一个讲座讲解一些早期（2010 - 2018）比较重要的视觉语言理解的工作；第二个讲座重点介绍视觉语言预训练（2019 – 现在）；第三个讲座介绍最近的几个更大规模的视觉语言预训练的工作，以及这个领域的发展趋势。