本文探讨了大型人工神经网络学习的语言结构知识,通过自监督训练,该模型简单地尝试预测给定上下文中的一个掩蔽词。人类的语言交流是通过词语序列进行的,但是语言理解需要构建丰富的从未被明确观察到的层次结构。这一机制一直是人类语言习得的一个主要奥秘,而工程工作主要是通过在树堆上有监督的句子学习来完成的,这些句子是手写标记的这种潜在结构。然而,我们证明,现代的深度语境化语言模型在没有任何明确监督的情况下学习这种语言结构。我们开发了识别人工神经网络中涌现的语言层次结构的方法,并证明了这些模型中的组件关注于语法关系和回指共指。事实上,我们表明,在这些模型中学习的嵌入的线性转换捕获了解析树的距离,达到了令人惊讶的程度,允许大致重建通常由语言学家假定的句子树结构。这些结果有助于解释为什么这些模型在许多语言理解任务中带来了如此大的改进。

成为VIP会员查看完整内容
20

相关内容

【ICML2020-哈佛】深度语言表示中可分流形
专知会员服务
13+阅读 · 2020年6月2日
【IJCAI2020】图神经网络预测结构化实体交互
专知会员服务
43+阅读 · 2020年5月13日
BERT技术体系综述论文:40项分析探究BERT如何work
专知会员服务
140+阅读 · 2020年3月1日
【Science最新论文】XAI—可解释人工智能简述,机遇与挑战
专知会员服务
165+阅读 · 2019年12月21日
深度学习算法与架构回顾
专知会员服务
83+阅读 · 2019年10月20日
了解情感分析中的NLP技术么?
七月在线实验室
9+阅读 · 2019年4月12日
多图带你读懂 Transformers 的工作原理
AI研习社
10+阅读 · 2019年3月18日
ELMo的朋友圈:预训练语言模型真的一枝独秀吗?
这种有序神经元,像你熟知的循环神经网络吗?
机器之心
6+阅读 · 2018年12月20日
Gartner:2018人工智能技术成熟度曲线
物联网智库
4+阅读 · 2018年8月17日
独家 | 一文读懂人工神经网络
数据派THU
12+阅读 · 2018年2月1日
自然语言处理中的深度学习发展史和待解难题
人工神经网络
平均机器
15+阅读 · 2017年7月17日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
6+阅读 · 2019年3月19日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Arxiv
6+阅读 · 2018年10月3日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
10+阅读 · 2017年12月29日
VIP会员
相关资讯
了解情感分析中的NLP技术么?
七月在线实验室
9+阅读 · 2019年4月12日
多图带你读懂 Transformers 的工作原理
AI研习社
10+阅读 · 2019年3月18日
ELMo的朋友圈:预训练语言模型真的一枝独秀吗?
这种有序神经元,像你熟知的循环神经网络吗?
机器之心
6+阅读 · 2018年12月20日
Gartner:2018人工智能技术成熟度曲线
物联网智库
4+阅读 · 2018年8月17日
独家 | 一文读懂人工神经网络
数据派THU
12+阅读 · 2018年2月1日
自然语言处理中的深度学习发展史和待解难题
人工神经网络
平均机器
15+阅读 · 2017年7月17日
相关论文
Arxiv
6+阅读 · 2019年4月8日
Arxiv
6+阅读 · 2019年3月19日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Arxiv
6+阅读 · 2018年10月3日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
10+阅读 · 2017年12月29日
微信扫码咨询专知VIP会员