本文旨在从表单文档中提取零样本的结构化信息。与传统的文档结构话信息提取的不同在于,对于指定的键,零样本学习在训练集中不需要存在其对应的训练数据,而在预测过程中,根据键的文本描述直接在文档中寻找该键对应的目标值。零样本结构化信息提取使得模型可以预测数量庞大的键对应的值而不需要额外的标注数据。为了达到这个目的,本文提出键和触发词可感应的基于Transformer框架的两阶段模型(KATA)。第一阶段根据键的描述在文档中寻找对应的触发词;第二阶段根据触发词在文档中预测对应的目标值。为了提升模型的泛化能力,在大量的维基百科数据上进行预训练。最终在两个微调数据集上进行测试,英文数据集和中文数据集分别获得0.73和0.71左右的F1值。实验结果表明,本文提出的KATA模型能一定程度上能提取零样本结构化信息。

https://www.aaai.org/AAAI21Papers/AAAI-2758.CaoR.pdf

成为VIP会员查看完整内容
7

相关内容

【AAAI2021】预训练用户表示提升推荐
专知会员服务
43+阅读 · 2021年2月8日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
专知会员服务
35+阅读 · 2020年11月29日
【WSDM2021】弱监督下的分层元数据感知文档分类
专知会员服务
10+阅读 · 2020年11月16日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
5+阅读 · 2020年7月2日
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
25+阅读 · 2019年9月11日
哈工大讯飞联合实验室发布中文XLNet预训练模型
哈工大SCIR
13+阅读 · 2019年8月20日
论文浅尝 | 基于知识库的神经网络问题生成方法
开放知识图谱
19+阅读 · 2019年6月21日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
67+阅读 · 2019年5月17日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
已删除
生物探索
3+阅读 · 2018年2月10日
Arxiv
8+阅读 · 2021年3月2日
Kernel Graph Attention Network for Fact Verification
Arxiv
3+阅读 · 2019年10月23日
Arxiv
6+阅读 · 2019年8月22日
VIP会员
相关VIP内容
【AAAI2021】预训练用户表示提升推荐
专知会员服务
43+阅读 · 2021年2月8日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
专知会员服务
35+阅读 · 2020年11月29日
【WSDM2021】弱监督下的分层元数据感知文档分类
专知会员服务
10+阅读 · 2020年11月16日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
5+阅读 · 2020年7月2日
相关资讯
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
25+阅读 · 2019年9月11日
哈工大讯飞联合实验室发布中文XLNet预训练模型
哈工大SCIR
13+阅读 · 2019年8月20日
论文浅尝 | 基于知识库的神经网络问题生成方法
开放知识图谱
19+阅读 · 2019年6月21日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
67+阅读 · 2019年5月17日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
已删除
生物探索
3+阅读 · 2018年2月10日
微信扫码咨询专知VIP会员