论文浅尝 | Wordly Wise(WoW) - 用于语音视觉知识问答的跨语言知识融合模型

2021 年 11 月 27 日 开放知识图谱

笔记整理: 谭亦鸣,东南大学博士生

来源:NAACL’21

链接:https://aclanthology.org/2021.naacl-main.153.pdf

论文提出了一种新的知识图谱问答数据集命名为FVSQA,这是一种语音视觉知识问答类型的任务,即问题形式为音频,问题基于一个图片提出,答案是来自知识图谱的事实。FVSQA包含三个子任务:

1.基于语音转文本的问答;2.(不转文本情况下的)端到端模型;3.跨语言任务,即问题的音频语言与知识图谱语言不同情况下的问答。

背景与动机

基于事实的视觉问答(FVQA)要求问答系统依据针对图像提出的问题,从给定的知识图谱中找到对应的事实答案。该任务旨在使模型模仿人类回答视觉问题时如何利用背景知识。但是作者认为现有的问答任务未考虑到(多语言)音频接口的情况,考虑到目前逐渐成熟的语音识别系统,直接使用语音提问,构建一个直接使用语音信号的端到端问答模型是指的考虑的研究方向。

贡献

作者总结论文的主要贡献如下:

1.论文提出了一个新的基于事实的视觉音频问答任务,并建立了一个数据集FVSQA包含5小时长度的语音数据,覆盖英语,印地语以及土耳其语。2.作者训练了一个直接使用语音信号的端到端问答模型WoW,这是第一个不需要语音识别解析模块的语音知识图谱问答模型

方法

论文的方法的整体过程如图所示,首先问题和场景检测器是被图像中的实体构成,然后图像被表示为检测到的实体的KG embedding特征集合,语音问题的MFCC特征由LSTM编码并传递到co-attention层,与图像编码进行融合,经过一个全连接层后,到达查询层,最后与查询最接近的实体被获取作为问题的答案

co-attention层的结构如下图:

这个部分的目的是融合语音问题表示以及图像表示,首先由自注意力提供一个单独的语音信号的问题embedding,然后问题embedding引导视觉attention的权重(就像文本embedding做的那样)。

FVSQA数据集的统计信息如下表

多语言数据借助了亚马逊翻译API完成,然后由人工校验,以确保问题的正确性。

实验

WoW模型的参数数量如表2所示 最终的实验结果如下表:



 

OpenKG


OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

登录查看更多
0

相关内容

知识融合,即合并两个知识图谱(本体),基本的问题都是研究怎样将来自多个来源的关于同一个实体或概念的描述信息融合起来。
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
【博士论文】视觉语言交互中的视觉推理研究
专知会员服务
61+阅读 · 2021年12月1日
专知会员服务
31+阅读 · 2021年3月17日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
【KDD 2020】基于互信息最大化的多知识图谱语义融合
专知会员服务
41+阅读 · 2020年9月7日
【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
56+阅读 · 2020年6月24日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
AAAI2022 预训练中的多模态信息融合与表征探究
RUC AI Box
3+阅读 · 2022年3月15日
论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换
开放知识图谱
0+阅读 · 2022年2月26日
论文浅尝 | 基于多模态特征的视觉实体链接
开放知识图谱
1+阅读 · 2022年1月7日
论文浅尝 | 面向视觉常识推理的层次语义增强方向图网络
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
25+阅读 · 2019年9月11日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
23+阅读 · 2019年8月24日
论文浅尝 | 通过文本到文本神经问题生成的机器理解
开放知识图谱
10+阅读 · 2019年6月30日
论文浅尝 | 一种用于多关系问答的可解释推理网络
开放知识图谱
18+阅读 · 2019年5月21日
论文浅尝 | 使用变分推理做KBQA
开放知识图谱
13+阅读 · 2018年4月15日
论文浅尝 | Improved Neural Relation Detection for KBQA
开放知识图谱
13+阅读 · 2018年1月21日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
Towards Fine-grained Causal Reasoning and QA
Arxiv
0+阅读 · 2022年4月15日
VIP会员
相关VIP内容
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
【博士论文】视觉语言交互中的视觉推理研究
专知会员服务
61+阅读 · 2021年12月1日
专知会员服务
31+阅读 · 2021年3月17日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
【KDD 2020】基于互信息最大化的多知识图谱语义融合
专知会员服务
41+阅读 · 2020年9月7日
【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
56+阅读 · 2020年6月24日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
相关资讯
AAAI2022 预训练中的多模态信息融合与表征探究
RUC AI Box
3+阅读 · 2022年3月15日
论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换
开放知识图谱
0+阅读 · 2022年2月26日
论文浅尝 | 基于多模态特征的视觉实体链接
开放知识图谱
1+阅读 · 2022年1月7日
论文浅尝 | 面向视觉常识推理的层次语义增强方向图网络
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
25+阅读 · 2019年9月11日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
23+阅读 · 2019年8月24日
论文浅尝 | 通过文本到文本神经问题生成的机器理解
开放知识图谱
10+阅读 · 2019年6月30日
论文浅尝 | 一种用于多关系问答的可解释推理网络
开放知识图谱
18+阅读 · 2019年5月21日
论文浅尝 | 使用变分推理做KBQA
开放知识图谱
13+阅读 · 2018年4月15日
论文浅尝 | Improved Neural Relation Detection for KBQA
开放知识图谱
13+阅读 · 2018年1月21日
相关基金
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员