Universally modeling all typical information extraction tasks (UIE) with one generative language model (GLM) has revealed great potential by the latest study, where various IE predictions are unified into a linearized hierarchical expression under a GLM. Syntactic structure information, a type of effective feature which has been extensively utilized in IE community, should also be beneficial to UIE. In this work, we propose a novel structure-aware GLM, fully unleashing the power of syntactic knowledge for UIE. A heterogeneous structure inductor is explored to unsupervisedly induce rich heterogeneous structural representations by post-training an existing GLM. In particular, a structural broadcaster is devised to compact various latent trees into explicit high-order forests, helping to guide a better generation during decoding. We finally introduce a task-oriented structure fine-tuning mechanism, further adjusting the learned structures to most coincide with the end-task's need. Over 12 IE benchmarks across 7 tasks our system shows significant improvements over the baseline UIE system. Further in-depth analyses show that our GLM learns rich task-adaptive structural bias that greatly resolves the UIE crux, the long-range dependence issue and boundary identifying. Source codes are open at https://github.com/ChocoWu/LasUIE.


翻译:最近的研究表明,使用一个生成语言模型(GLM)普遍建模所有典型的信息提取任务(UIE)具有巨大的潜力,其中各种IE预测被统一为GLM下的线性化分层表达式。句法结构信息是IE社区广泛利用的一种有效特征,也有可能对UIE有利。在本文中,我们提出了一种新的结构感知GLM,充分发挥句法知识在UIE中的作用。我们探索了一种异构结构诱导器,通过后训练现有的GLM来无监督地引入丰富的异构结构表示。特别地,设计了一个结构广播器,将各种潜在树结构压缩为明确的高阶森林,有助于引导更好的解码生成。最后我们介绍了一种面向任务的结构微调机制,进一步调整学习到的结构以与最终任务需要最大程度重合。在7个任务的12个IE基准测试中,我们的系统显示出比基线UIE系统显著的改善。进一步的深度分析表明,我们的GLM学习到了丰富的任务自适应结构偏见,大大解决了UIE的难点,即长距离依赖问题和边界识别问题。源代码开放于https://github.com/ChocoWu/LasUIE 。

0
下载
关闭预览

相关内容

【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
最新10篇对比学习推荐前沿工作
机器学习与推荐算法
2+阅读 · 2022年9月14日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
SIGIR2019 接收论文列表
专知
18+阅读 · 2019年4月20日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年6月1日
Arxiv
21+阅读 · 2019年8月21日
VIP会员
相关VIP内容
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
相关资讯
最新10篇对比学习推荐前沿工作
机器学习与推荐算法
2+阅读 · 2022年9月14日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
SIGIR2019 接收论文列表
专知
18+阅读 · 2019年4月20日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
相关基金
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员