当前生成模型的研究方向,例如最近开发的GPT4,旨在为多模态和多语言输入找到相关的知识信息以提供答案。在这些研究环境下,对视觉问题回答(VQA)任务的多语言评估需求增加,VQA是多模态系统的代表性任务。因此,本研究提出了一个双语外部知识VQA(BOK-VQA)数据集,该数据集可以扩展到多语言。提出的数据包括17K张图片,针对韩语和英语的17K个问题-答案对,以及与问题-答案内容相关的280K条知识信息实例。我们还提出了一个框架,可以通过以图嵌入的形式对BOK-VQA数据的知识信息进行预训练,有效地将知识信息注入到VQA系统中。最后,通过深入分析,我们展示了构建的训练数据中包含的知识信息对VQA的实际效果。

成为VIP会员查看完整内容
23

相关内容

【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
21+阅读 · 2023年10月21日
【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练
专知会员服务
30+阅读 · 2023年4月25日
专知会员服务
12+阅读 · 2021年10月11日
专知会员服务
38+阅读 · 2021年5月16日
【CVPR2021】多实例主动学习目标检测
专知会员服务
41+阅读 · 2021年4月18日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
68+阅读 · 2022年9月7日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
VIP会员
相关VIP内容
【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
21+阅读 · 2023年10月21日
【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练
专知会员服务
30+阅读 · 2023年4月25日
专知会员服务
12+阅读 · 2021年10月11日
专知会员服务
38+阅读 · 2021年5月16日
【CVPR2021】多实例主动学习目标检测
专知会员服务
41+阅读 · 2021年4月18日
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员