动作知识涉及对动作的文本、视觉和时间方面的理解。我们介绍了动作动力学基准(ActionBench),其中包含两个精心设计的探测任务:动作反义和视频反转,分别针对模型的多模态对齐能力和时间理解技能。尽管近来的视频-语言模型(VidLM)在各种基准任务上的表现令人印象深刻,但我们的诊断任务揭示了它们在动作知识方面的惊人不足(近乎随机性能),这表明当前模型依赖于对象识别能力作为理解动作的捷径。为了补救这一问题,我们提出了一种新颖的框架,PAXION,以及一个新的区分性视频动力学建模(DVDM)目标。PAXION框架利用知识修补网络来编码新的动作知识,并利用知识融合组件将修补器整合到冻结的VidLM中,而不会损害它们现有的能力。由于广泛使用的视频-文本对比(VTC)损失在学习动作知识方面的局限性,我们引入DVDM目标来训练知识修补器。DVDM迫使模型编码动作文本与视频帧正确排序之间的关联。我们的广泛分析显示,PAXION和DVDM一起有效地填补了动作知识理解的差距(~50% → 80%),同时维持或提高了在一系列以对象和动作为中心的下游任务上的表现。

成为VIP会员查看完整内容
17

相关内容

【NeurIPS2023】多样化的时空感知用于视频域泛化
专知会员服务
20+阅读 · 2023年10月30日
【CVPR2023】KERM:面向视觉语言导航的知识增强推理
专知会员服务
22+阅读 · 2023年3月30日
【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
36+阅读 · 2022年10月4日
【ICML2022】MetAug:通过元特征增强的对比学习
专知会员服务
24+阅读 · 2022年5月20日
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
【AAAI2023】视觉辅助的常识知识获取
专知
1+阅读 · 2022年11月28日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
VIP会员
相关基金
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员