Using Prior Knowledge to Guide BERT's Attention in Semantic Textual Matching Tasks

Authors: Tingyu Xia, Yue Wang, Yuan Tian, Yi Chang

我们研究了将先验知识整合到基于深度Transformer的模型中的问题,即:,以增强其在语义文本匹配任务中的性能。通过探索和分析BERT在解决这个任务时已经知道的东西,我们可以更好地理解BERT最需要什么特定任务的知识,在哪里最需要什么知识。这一分析进一步促使我们采取一种不同于大多数现有工作的方法。我们没有使用先验知识来创建一个新的训练任务来微调BERT,而是直接将知识注入BERT特的多头注意机制。这将我们引向一种简单而有效的方法,它历经快速训练阶段,因为它节省了模型在主要任务以外的额外数据或任务上的训练。大量的实验表明,本文提出的知识增强的BERT模型能够持续地提高语义文本匹配性能,并且在训练数据稀缺的情况下性能效益最为显著。

https://www.zhuanzhi.ai/paper/7b48ad08e4eaf1a9d87baf6474bec12f

成为VIP会员查看完整内容
41

相关内容

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。
【WWW2021】归一化硬样本挖掘的双重注意匹配网络
专知会员服务
18+阅读 · 2021年3月31日
专知会员服务
17+阅读 · 2021年2月17日
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
51+阅读 · 2021年2月7日
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
26+阅读 · 2020年10月15日
注意力图神经网络的多标签文本分类
专知
8+阅读 · 2020年3月28日
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
21+阅读 · 2019年9月6日
BERT-预训练的强大
微信AI
60+阅读 · 2019年3月7日
Arxiv
3+阅读 · 2019年11月28日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
4+阅读 · 2019年2月18日
Arxiv
4+阅读 · 2019年1月1日
VIP会员
微信扫码咨询专知VIP会员