在本研究中,我们致力于解决视频大语言模型(Video-LLMs)中的动作-场景幻觉问题,即模型基于场景上下文错误预测动作,或基于观察到的动作错误预测场景。我们发现,现有的视频大语言模型通常因以下两个主要原因而出现动作-场景幻觉:首先,现有模型通过对所有标记(tokens)应用注意力操作,将空间和时间特征混为一谈;其次,它们使用标准的旋转位置嵌入(RoPE),导致文本标记过度依赖其序列顺序而强调某些类型的标记。为了解决这些问题,我们提出了MASH-VLM,即通过解耦时空表征来缓解视频大语言模型中的动作-场景幻觉。我们的方法包括两项关键创新:(1)DST-attention,一种新颖的注意力机制,通过使用掩码注意力限制空间和时间标记之间的直接交互,从而在语言模型内解耦空间和时间标记;(2)Harmonic-RoPE,通过扩展位置ID的维度,使空间和时间标记能够相对于文本标记保持平衡的位置。为了评估视频大语言模型中的动作-场景幻觉,我们引入了UNSCENE基准测试,包含1,320个视频和4,078个问答对。MASH-VLM在UNSCENE基准测试以及现有的视频理解基准测试中均取得了最先进的性能。

成为VIP会员查看完整内容
11

相关内容

【CVPR2024】视觉-语言模型的高效测试时间调整
专知会员服务
20+阅读 · 2024年3月30日
【NeurIPS2021】ResT:一个有效的视觉识别转换器
专知会员服务
23+阅读 · 2021年10月25日
专知会员服务
17+阅读 · 2021年9月8日
专知会员服务
17+阅读 · 2021年4月27日
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
447+阅读 · 2023年3月31日
Arxiv
75+阅读 · 2023年3月26日
Arxiv
163+阅读 · 2023年3月24日
VIP会员
相关VIP内容
【CVPR2024】视觉-语言模型的高效测试时间调整
专知会员服务
20+阅读 · 2024年3月30日
【NeurIPS2021】ResT:一个有效的视觉识别转换器
专知会员服务
23+阅读 · 2021年10月25日
专知会员服务
17+阅读 · 2021年9月8日
专知会员服务
17+阅读 · 2021年4月27日
相关资讯
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员