来自UIUC 哥伦比亚 Meta给出了《知识驱动的视觉语言编码》教程,值得关注!

近年来,视觉-语言(V+L)预训练模型通过学习视觉和文本之间的对齐在多媒体应用中取得了巨大成功。对实体知识(即物体和物体类型)的理解是各种V+L任务的基本能力,如图像描述和视觉问答。它们还需要理解相关知识(即场景图)的能力,这些知识可以进一步支持组合式视觉问答、场景图解析等。除此之外,具有事件论元结构的事件知识(即事件类型、动作、活动)对于支持视觉常识推理、情景识别、动作识别和人与物体交互等认知级视觉理解至关重要。为了跟踪事件和实体的状态变化,将过程性知识引入视频问答、动作识别、动作分割、动作定位、动作预测和过程规划等领域。语言模型中的知识也可以有利于视觉-语言预训练,而不是显式地获取结构化知识。因此,将知识添加到视觉-语言预训练中提出了两个关键挑战,即在多个层次上获取知识,以及对知识的结构和语义进行编码。

在本教程中,我们将全面回顾现有的多媒体知识发现和编码范式,并重点关注它们对视觉-语言预训练的贡献。我们将知识分为内部自我知识和外部自我知识。从文本和视觉模态中提取内部知识,如结构化实体、关系、事件和事件程序。我们将重点关注知识的结构方面,并解决关于跨多模态知识获取和结构编码的两个关键挑战。外部知识可以从知识库或语言模型中获得,本文将举例说明它们在帮助视觉模态的常识理解方面的用途,重点是时间和认知方面。本教程的目标是向参与者介绍知识驱动的视觉-语言研究的最新趋势和新挑战,以及供参与者获得现成模型的学习资源和工具,推动关于结构化知识对文本和视觉学习的影响的深入讨论。

https://blender.cs.illinois.edu/tutorial/KnowledgeVLP/

成为VIP会员查看完整内容
32

相关内容

CVPR 2023大会将于 6 月 18 日至 22 日在温哥华会议中心举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议,会议的主要内容是计算机视觉与模式识别技术。 CVPR 2023 共收到 9155 份提交,比去年增加了 12%,创下新纪录,今年接收了 2360 篇论文,接收率为 25.78%。作为对比,去年有 8100 多篇有效投稿,大会接收了 2067 篇,接收率为 25%。
开课了!CMU《多模态机器学习》2023课程,附课件
专知会员服务
66+阅读 · 2023年2月12日
开课了!CMU《多模态机器学习》2022课程,附课件与视频
专知会员服务
153+阅读 · 2022年2月1日
国家自然科学基金
11+阅读 · 2016年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
325+阅读 · 2023年3月31日
Arxiv
53+阅读 · 2023年3月26日
Arxiv
111+阅读 · 2023年3月24日
VIP会员
相关基金
国家自然科学基金
11+阅读 · 2016年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员