当前视频-语言对齐模型的训练数据通常包含视频片段及其对应文本:一条由大型语言模型生成的正例描述和一条负例描述。这种方法的缺陷在于,负例描述可能引入语言偏差——某些概念仅以负面形式出现,却从未与真实视频关联。虽然可通过收集负例对应视频来解决此问题,但现有数据库缺乏覆盖所有潜在负例所需的细粒度变体。本研究探讨合成视频能否突破这一局限。通过多生成器的实验发现:合成视频在某些任务中表现良好,但在其他任务中会损害模型性能。我们推测这一问题与生成视频中的语义噪声和视觉噪声有关,据此提出动态加权方法SYNVITA:动态加权:根据合成视频目标描述与真实描述的相似度调整权重语义一致性损失:迫使模型关注描述间的细粒度差异,而非视频表观差异实验表明,SYNVITA在VideoCon测试集及SSv2-Temporal、SSv2-Events、ATP-Hard等基准上平均性能优于现有方法,为合成视频在视频-语言模型训练中的应用迈出重要一步。

成为VIP会员查看完整内容
2

相关内容

【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
22+阅读 · 2023年10月21日
【CVPR2023】基础模型驱动弱增量学习的语义分割
专知会员服务
18+阅读 · 2023年3月2日
【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
16+阅读 · 2022年3月17日
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
32+阅读 · 2022年3月3日
专知会员服务
39+阅读 · 2021年5月16日
专知会员服务
38+阅读 · 2021年4月25日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
63+阅读 · 2021年4月21日
专知会员服务
36+阅读 · 2020年11月29日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
446+阅读 · 2023年3月31日
Arxiv
14+阅读 · 2022年5月6日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
Arxiv
11+阅读 · 2018年7月31日
Arxiv
26+阅读 · 2018年2月27日
VIP会员
相关VIP内容
【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
22+阅读 · 2023年10月21日
【CVPR2023】基础模型驱动弱增量学习的语义分割
专知会员服务
18+阅读 · 2023年3月2日
【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
16+阅读 · 2022年3月17日
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
32+阅读 · 2022年3月3日
专知会员服务
39+阅读 · 2021年5月16日
专知会员服务
38+阅读 · 2021年4月25日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
63+阅读 · 2021年4月21日
专知会员服务
36+阅读 · 2020年11月29日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
相关论文
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
446+阅读 · 2023年3月31日
Arxiv
14+阅读 · 2022年5月6日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
Arxiv
11+阅读 · 2018年7月31日
Arxiv
26+阅读 · 2018年2月27日
微信扫码咨询专知VIP会员