最近的研究表明,百科全书中的文档作为辅助信息对零样本学习非常有帮助。现有方法通过将整个文档的语义与相应的图像对齐来传递知识。然而,这些方法忽略了语义信息在两者之间并不等价,导致次优的对齐效果。在本研究中,我们提出了一种新颖的网络,从文档和图像中提取多视角的语义概念,并对匹配的部分概念进行对齐,而不是整个概念。具体来说,我们提出了一个语义分解模块,从视觉和文本方面生成多视角的语义嵌入,为部分对齐提供基本概念。为了缓解嵌入中的信息冗余问题,我们提出了局部到语义方差损失,以捕捉不同的局部细节,并提出多语义多样性损失,以在嵌入之间强制正交性。随后,引入了两种损失,根据它们在视图和词到片段级别的语义相关性,部分对齐视觉-语义嵌入对。因此,我们在三种标准基准测试的两个文档来源下,一直优于最新的方法。在定性方面,我们表明我们的模型学习到了可解释的部分关联。代码可在此获取。

成为VIP会员查看完整内容
19

相关内容

ACM 国际多媒体大会(英文名称:ACM Multimedia,简称:ACM MM)是多媒体领域的顶级国际会议,每年举办一次。
【AAAI2024】使用大型语言模型的生成式多模态知识检索
专知会员服务
53+阅读 · 2024年1月19日
【ICML2022】基于元语义正则化的介入性对比学习
专知会员服务
21+阅读 · 2022年7月1日
【AAAI2022】基于变分信息瓶颈的图结构学习
专知会员服务
20+阅读 · 2021年12月18日
专知会员服务
16+阅读 · 2021年7月7日
【ACMMM2020】零样本语义分割的上下文感知特征生成
专知会员服务
16+阅读 · 2020年8月21日
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
162+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
423+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2023年3月26日
Arxiv
152+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【AAAI2024】使用大型语言模型的生成式多模态知识检索
专知会员服务
53+阅读 · 2024年1月19日
【ICML2022】基于元语义正则化的介入性对比学习
专知会员服务
21+阅读 · 2022年7月1日
【AAAI2022】基于变分信息瓶颈的图结构学习
专知会员服务
20+阅读 · 2021年12月18日
专知会员服务
16+阅读 · 2021年7月7日
【ACMMM2020】零样本语义分割的上下文感知特征生成
专知会员服务
16+阅读 · 2020年8月21日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员