论文浅尝 | Wordly Wise(WoW) - 用于语音视觉知识问答的跨语言知识融合模型 - 专知

会员服务 ·

0

论文浅尝 | Wordly Wise(WoW) - 用于语音视觉知识问答的跨语言知识融合模型

2021 年 11 月 27 日 开放知识图谱

笔记整理: 谭亦鸣，东南大学博士生

来源：NAACL’21

链接：https://aclanthology.org/2021.naacl-main.153.pdf

论文提出了一种新的知识图谱问答数据集命名为FVSQA，这是一种语音视觉知识问答类型的任务，即问题形式为音频，问题基于一个图片提出，答案是来自知识图谱的事实。FVSQA包含三个子任务：

1.基于语音转文本的问答；2.（不转文本情况下的）端到端模型；3.跨语言任务，即问题的音频语言与知识图谱语言不同情况下的问答。

背景与动机

基于事实的视觉问答（FVQA）要求问答系统依据针对图像提出的问题，从给定的知识图谱中找到对应的事实答案。该任务旨在使模型模仿人类回答视觉问题时如何利用背景知识。但是作者认为现有的问答任务未考虑到（多语言）音频接口的情况，考虑到目前逐渐成熟的语音识别系统，直接使用语音提问，构建一个直接使用语音信号的端到端问答模型是指的考虑的研究方向。

贡献

作者总结论文的主要贡献如下：

1.论文提出了一个新的基于事实的视觉音频问答任务，并建立了一个数据集FVSQA包含5小时长度的语音数据，覆盖英语，印地语以及土耳其语。2.作者训练了一个直接使用语音信号的端到端问答模型WoW，这是第一个不需要语音识别解析模块的语音知识图谱问答模型

方法

论文的方法的整体过程如图所示，首先问题和场景检测器是被图像中的实体构成，然后图像被表示为检测到的实体的KG embedding特征集合，语音问题的MFCC特征由LSTM编码并传递到co-attention层，与图像编码进行融合，经过一个全连接层后，到达查询层，最后与查询最接近的实体被获取作为问题的答案

co-attention层的结构如下图：

这个部分的目的是融合语音问题表示以及图像表示，首先由自注意力提供一个单独的语音信号的问题embedding，然后问题embedding引导视觉attention的权重（就像文本embedding做的那样）。

FVSQA数据集的统计信息如下表

多语言数据借助了亚马逊翻译API完成，然后由人工校验，以确保问题的正确性。

实验

WoW模型的参数数量如表2所示最终的实验结果如下表：

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文，进入 OpenKG 网站。

登录查看更多

0

相关内容

知识融合

知识融合，即合并两个知识图谱(本体)，基本的问题都是研究怎样将来自多个来源的关于同一个实体或概念的描述信息融合起来。

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【博士论文】视觉语言交互中的视觉推理研究

【博士论文】视觉语言交互中的视觉推理研究

专知会员服务

65+阅读 · 2021年12月1日

基于视觉和语言的跨媒体问答与推理研究综述

专知会员服务

32+阅读 · 2021年3月17日

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

专知会员服务

29+阅读 · 2021年1月17日

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

专知会员服务

52+阅读 · 2019年10月27日

论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换

论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换

开放知识图谱

0+阅读 · 2022年2月26日

论文浅尝 | 面向视觉常识推理的层次语义增强方向图网络

论文浅尝 | 面向视觉常识推理的层次语义增强方向图网络

开放知识图谱

0+阅读 · 2021年12月11日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

论文浅尝 | 一种用于多关系问答的可解释推理网络

论文浅尝 | 一种用于多关系问答的可解释推理网络

开放知识图谱

18+阅读 · 2019年5月21日

论文浅尝 | 使用变分推理做KBQA

论文浅尝 | 使用变分推理做KBQA

开放知识图谱

13+阅读 · 2018年4月15日

非母语汉语学习过程中语音生成与习得研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于DBN协同建模的中文及跨语种语音结构事件检测研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于多目视觉的形体语言感知与识别研究

国家自然科学基金

2+阅读 · 2011年12月31日

语音生成的计算建模及在言语障碍康复中的应用

国家自然科学基金

0+阅读 · 2011年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

Mention Memory: incorporating textual knowledge into Transformers through entity mention attention

Arxiv

0+阅读 · 2022年4月19日

An Energy-Based Prior for Generative Saliency

Arxiv

0+阅读 · 2022年4月19日

QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering

Arxiv

20+阅读 · 2021年5月27日

Commonsense Knowledge Base Completion with Structural and Semantic Context

Commonsense Knowledge Base Completion with Structural and Semantic Context

Arxiv

20+阅读 · 2019年12月19日

One for All: Neural Joint Modeling of Entities and Events

Arxiv

11+阅读 · 2018年12月1日

VIP会员

相关主题

知识图谱问答

相关VIP内容

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【博士论文】视觉语言交互中的视觉推理研究

【博士论文】视觉语言交互中的视觉推理研究

专知会员服务

65+阅读 · 2021年12月1日

基于视觉和语言的跨媒体问答与推理研究综述

专知会员服务

32+阅读 · 2021年3月17日

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

专知会员服务

29+阅读 · 2021年1月17日

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

专知会员服务

52+阅读 · 2019年10月27日

热门VIP内容

开通专知VIP会员享更多权益服务

从代码基础模型到智能体与应用：代码智能的全面综述与实践指南

《北约认知战概念报告》

【MIT博士论文】高效的视觉合成生成模型

美海军放弃星座级转而采用国家安全巡逻舰设计

相关资讯

论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换

论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换

开放知识图谱

0+阅读 · 2022年2月26日

论文浅尝 | 面向视觉常识推理的层次语义增强方向图网络

论文浅尝 | 面向视觉常识推理的层次语义增强方向图网络

开放知识图谱

0+阅读 · 2021年12月11日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

论文浅尝 | 一种用于多关系问答的可解释推理网络

论文浅尝 | 一种用于多关系问答的可解释推理网络

开放知识图谱

18+阅读 · 2019年5月21日

论文浅尝 | 使用变分推理做KBQA

论文浅尝 | 使用变分推理做KBQA

开放知识图谱

13+阅读 · 2018年4月15日

相关基金

非母语汉语学习过程中语音生成与习得研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于DBN协同建模的中文及跨语种语音结构事件检测研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于多目视觉的形体语言感知与识别研究

国家自然科学基金

2+阅读 · 2011年12月31日

语音生成的计算建模及在言语障碍康复中的应用

国家自然科学基金

0+阅读 · 2011年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

相关论文

Mention Memory: incorporating textual knowledge into Transformers through entity mention attention

Arxiv

0+阅读 · 2022年4月19日

An Energy-Based Prior for Generative Saliency

Arxiv

0+阅读 · 2022年4月19日

QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering

Arxiv

20+阅读 · 2021年5月27日

Commonsense Knowledge Base Completion with Structural and Semantic Context

Commonsense Knowledge Base Completion with Structural and Semantic Context

Arxiv

20+阅读 · 2019年12月19日

One for All: Neural Joint Modeling of Entities and Events

Arxiv

11+阅读 · 2018年12月1日

大家都在搜

蓝牙安全攻防

大型语言模型

朱克爱德华兹家族

【泡泡读者来搞】ROS、Simulink、Carsim的互联与规划、控制算法的验证

微信扫码咨询专知VIP会员