论文题目: Specializing Word Embeddings(for Parsing)by Information Bottleneck

论文摘要: 预训练词向量,如 ELMo 和 BERT 包括了丰富的句法和语义信息,使这些模型能够在各种任务上达到 SOTA 表现。在本文中,研究者则提出了一个非常快速的变分信息瓶颈方法,能够用非线性的方式压缩这些嵌入,仅保留能够帮助句法解析器的信息。研究者将每个词嵌入压缩成一个离散标签,或者一个连续向量。在离散的模式下,压缩的离散标签可以组成一种替代标签集。通过实验可以说明,这种标签集能够捕捉大部分传统 POS 标签标注的信息,而且这种标签序列在语法解析的过程中更为精确(在标签质量相似的情况下)。而在连续模式中,研究者通过实验说明,适当地压缩词嵌入可以在 8 种语言中产生更精确的语法解析器。这比简单的降维方法要好。

作者简介:

Xiang Lisa Li,约翰斯·霍普金斯大学的大四学生,其导师是著名NLP学者Jason Eisner,研究结构化预测和语法。

Jason Eisner,约翰斯·霍普金斯大学计算机科学系教授,ACL研究员。

成为VIP会员查看完整内容
Specializing Word Embeddings(for Parsing)by Information Bottleneck.pdf
23

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
NLP基础任务:文本分类近年发展汇总,68页超详细解析
专知会员服务
57+阅读 · 2020年1月3日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
哈工大SCIR两篇论文被IJCAI 2019录用
哈工大SCIR
7+阅读 · 2019年5月11日
CoNLL 2018 | 最佳论文揭晓:词嵌入获得的信息远比我们想象中的要多得多
黑龙江大学自然语言处理实验室
3+阅读 · 2018年11月2日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
11+阅读 · 2018年10月17日
Arxiv
5+阅读 · 2018年5月10日
VIP会员
相关VIP内容
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
NLP基础任务:文本分类近年发展汇总,68页超详细解析
专知会员服务
57+阅读 · 2020年1月3日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
微信扫码咨询专知VIP会员