6 月 18 日至 22 日,计算机视觉领域顶级盛会之一国际计算机视觉与模式识别会议(CVPR 2023)将在加拿大温哥华举行。CVPR(Computer Vision and Pattern Recognition,计算机视觉与模式识别)会议是计算机视觉与模式识别、人工智能领域的国际顶级会议,是中国计算机学会(CCF)推荐的A类国际学术会议。本届会议录用率为25.78%。
来自微软给出了《视觉基础模型进展》教程,值得关注!
https://vlp-tutorial.github.io/
在计算机视觉社区,不同粒度层次的视觉理解一直是一个长期存在的问题。任务跨越了从图像级任务(例如,图像分类,图像-文本检索,图像字幕,和视觉问题回答),区域级定位任务(例如,物体检测和短语定位),到像素级分组任务(例如,图像实例/语义/全景分割)。直到最近,这些任务大多都是通过专门的模型设计单独处理的,阻止了跨不同粒度的任务之间的协同效应的开发。
鉴于Transformer的多功能性和受大规模视觉语言预训练的启发,计算机视觉社区现在正在见证对构建通用视觉系统的兴趣日益增长,这也被称为视觉基础模型,这些模型可以从各种下游任务中学习,并应用于从图像级别,区域级别,到像素级别的视觉任务。
在本教程中,我们将介绍学习和应用视觉基础模型的前沿的最新方法和原则,包括(1) 视觉和视觉语言预训练;(2) 通用视觉接口;(3) 文本到图像生成的对齐;(4)大型多模态模型;和(5) 多模态智能体。
目录内容:
讲者: