人类通过多种渠道感知世界,如眼睛看到的图像或耳朵听到的声音。尽管任何一个单独的通道可能是不完整的或有噪声的,但人类可以自然地将从多个通道收集的信息进行排列和融合,以便掌握更好地理解世界所需的关键概念。人工智能的核心愿望之一是开发算法,使计算机具有从多模态(或多通道)数据中有效学习的能力。这些数据类似于通过视觉和语言获得的视觉和声音,帮助人类理解周围的世界。例如,计算机可以通过搜索最相似的图像来进行文本查询(反之亦然),并通过使用自然语言描述图像的内容来模拟这种能力。

视觉与语言(VL),一个位于计算机视觉和自然语言处理(NLP)之间的热门研究领域,旨在实现这一目标。视觉与语言预训练(vision and language pre-training, VLP)受到语言模型预训练在NLP中的巨大成功的启发,近年来迅速引起了两方面的关注。在本教程中,我们将涵盖VLP前沿的最新方法和原则,包括(1) 基于区域特征和端到端图像文本训练前;(2) 统一的视觉语言建模;(3) 延伸到视频语言预训练; (4) 从语言监督中学习视觉模型;(5) 视觉合成。

https://dvsml2022-tutorial.github.io/index.html/

成为VIP会员查看完整内容
85

相关内容

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议,会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
UC San Diego清华大学CVPR2022《具身人工智能》教程,260+页ppt
【COMPTEXT2022教程】跨语言监督文本分类,41页ppt
专知会员服务
17+阅读 · 2022年6月14日
专知会员服务
31+阅读 · 2021年10月20日
专知会员服务
12+阅读 · 2021年10月11日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
中科院自动化所:最新视觉-语言预训练综述
PaperWeekly
3+阅读 · 2022年3月1日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Arxiv
2+阅读 · 2022年8月12日
Arxiv
16+阅读 · 2021年7月18日
Arxiv
13+阅读 · 2020年4月12日
Image Segmentation Using Deep Learning: A Survey
Arxiv
45+阅读 · 2020年1月15日
Knowledge Representation Learning: A Quantitative Review
Arxiv
11+阅读 · 2018年5月13日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员