Most of today's AI systems focus on using self-attention mechanisms and transformer architectures on large amounts of diverse data to achieve impressive performance gains. In this paper, we propose to augment the transformer architecture with an external attention mechanism to bring external knowledge and context to bear. By integrating external information into the prediction process, we hope to reduce the need for ever-larger models and increase the democratization of AI systems. We find that the proposed external attention mechanism can significantly improve the performance of existing AI systems, allowing practitioners to easily customize foundation AI models to many diverse downstream applications. In particular, we focus on the task of Commonsense Reasoning, demonstrating that the proposed external attention mechanism can augment existing transformer models and significantly improve the model's reasoning capabilities. The proposed system, Knowledgeable External Attention for commonsense Reasoning (KEAR), reaches human parity on the open CommonsenseQA research benchmark with an accuracy of 89.4\% in comparison to the human accuracy of 88.9\%.


翻译:在本文件中,我们提议扩大变压器结构,采用外部关注机制,以吸引外部知识和背景。我们希望通过将外部信息纳入预测过程,减少对不断扩大模型的需求,提高AI系统的民主化程度。我们发现,拟议的外部关注机制可以大大改善现有AI系统的绩效,使从业人员能够方便地将AI模型用于多种不同的下游应用。特别是,我们侧重于常识理性的任务,表明拟议的外部关注机制可以增强现有的变压器模型,并大大改进模型推理能力。拟议的系统“常识理性可知识外部关注”(KEAR)在公开常识-QA研究基准上实现了人类对等,与88.9的人类精确度相比,其精确度为89.4 ⁇ 。

0
下载
关闭预览

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
最新《Transformers模型》教程,64页ppt
专知会员服务
314+阅读 · 2020年11月26日
【ACMMM2020】零样本语义分割的上下文感知特征生成
专知会员服务
16+阅读 · 2020年8月21日
因果图,Causal Graphs,52页ppt
专知会员服务
249+阅读 · 2020年4月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
论文小综 | Using External Knowledge on VQA
开放知识图谱
10+阅读 · 2020年10月18日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
VIP会员
Top
微信扫码咨询专知VIP会员