今天继续推荐几篇EMNLP2020中信息抽取方向的论文。
论文简介:
事件时序关系提取是信息抽取的一个关键任务,并在自然语言理解中起着重要的作用。最近的系统一般利用深度学习和预训练语言模型来提高任务的表现,但是这些系统往往有两个缺点:(1)在执行基于神经模型的最大后验(MAP)推理时,只使用被认为是绝对正确的结构化知识,即硬约束。(2)在有限的数据量下进行训练时,对占主导地位的时间关系的预测有偏差。为此,文章提出了一种基于概率知识分布式约束的深度神经网络增强框架。利用拉格朗日松弛方法解决约束推理问题,并将其应用于端到端事件时序关系抽取。实验结果表明,在新闻和临床领域两个广泛使用的数据集上,文章所提出的框架能够改进基线神经网络模型并具有较强的统计意义。
论文代码:
https://github.com/rujunhan/EMNLP-2020
论文地址:
https://arxiv.org/abs/2009.07373
论文简介:
事实的自动抽取和验证是一项具有挑战性的任务,这涉及从可靠的语料库中找到相关的证据(evidence)语句来验证声明(claim)的真实性。现有的模型有两大类:(1)将所有的证据句拼接起来,这会带来冗余和噪声信息;(2)将每个声明-证据句子对分开处理,然后将它们全部聚合起来。这种方式缺少早期相关句子的组合,所以难以更准确地验证声明。为此,文章提出了一种层次证据集建模方法:HESM。HESM这是一种抽取证据集的框架(每个证据集可能包含多个证据句),通过编码并关注不同层次的声明和证据集来验证一个声明是否被支持、反驳或信息不足。实验结果表明,HESM在事实抽取和声明验证方面优于7种最新的方法。
论文代码:
https://github.com/ShyamSubramanian/HESM
论文地址:
https://arxiv.org/abs/2010.05111
论文简介:
产品属性值在许多电子商务场景中非常重要,例如客服机器人、产品推荐和产品搜索。但在现实世界中,产品的属性值往往不完整,且随时间变化。为此文章提出了一种多模态方法来联合预测产品属性,并从产品图像的文本化描述中提取产品属性值。文章认为产品属性和属性值是高度相关的,比如,当产品属性已知,那么值的抽取将更容易。因此,文章针对属性与值之间的交互作用,从多个方面共同对属性预测和值抽取任务建模。此外,对于不同的产品属性和值,产品图像也有不同的影响。因此,文章有选择地从产品图像中抽取有用的视觉信息来增强模型。研究团队标注了一个包含87,194个实例的多模态产品属性值数据集,在该数据集上的实验结果表明,明确地建模属性和值之间的关系有助于建立两者之间的对应关系,而选择性地利用产品的视觉信息是完成这项任务的必要条件。
论文代码:
https://github.com/jd-aig/JAVE
论文地址:
https://arxiv.org/abs/2009.07162
论文简介:
命名实体识别和关系抽取是两个重要的基础问题。将二者进行联合学习以同时解决这两个任务早已有之,且多数的联合学习任务是将其看作是一个填表问题。但是,这些方法通常专注于学习单个编码器(通常学习表格形式的表征),以在同一空间中捕获两个任务所需的信息。文章认为,在学习过程中,设计两种不同的编码器来捕获这两种不同类型的信息会更好。为此,文章提出table-sequence encoders,这里面有2个encoder,分别是table encoder和sequence encoder。这两个encoder在表征学习过程中相辅相成。实验证实了使用2个encoder比只用1个encoder效果要好。在几个标准数据集上也充分实证,文章所提出的模型显著优于现有方法。
论文代码:
https://github.com/LorrinWWW/two-are-better-than-one
论文地址:
https://arxiv.org/abs/2010.03851
论文简介:
当下神经开放信息提取(OpenIE)领域的先进系统迭代地生成提取结果,这要求对部分输出进行重复编码。这需要大量的计算成本,估计要被环保人士喷的。另一方面,OpenIE的序列标记方法虽然更快,但抽取质量差。为此,文章提出了一种基于标签的迭代系统:OpenIE6,该系统是当下最先进的OpenIE,且抽取速度比之前快了10倍。文章的系统是通过一种新的迭代网格标记(IGL)体系结构实现的,IGL将OpenIE视为一个2d网格标记任务。通过在训练时对网格应用覆盖(软)约束进一步提高性能。此外,由于之前最好的OpenIE系统在处理并列结构(coordination structures )方面会有问题,OpenIE6系统还包含了一个使用相同IGL体系结构构建的新并列分析器。这个基于IGL的并列分析器让OpenIE6能够处理复杂的并列结构,同时也刷新了并列分析任务的新记录,在F1上比以前的分析器提升12.3个点。文章所提出的OpenIE系统:OpenIE6,在F1中比之前的系统多4个点,且速度更快。
论文代码:
https://github.com/dair-iitd/openie6
论文地址:
https://arxiv.org/abs/2010.03147
论文地址:https://arxiv.org/abs/2004.04295
论文简介:
从会话数据中抽取信息尤其具有挑战性,因为会话本质上是以任务为中心的,这使得人之间可以有效地交流隐含的信息,但这对机器来说是一个巨大的挑战。这个挑战在于如何根据说话者在对话中的角色不同,进行不同的回复,特别是当相关的专业知识在不同的角色中分布不对称时,更加困难。此外,对话中的信息越多,越多的上下文,挑战也会增加。为此,文章提出了新的建模方法:MedFilter,它提高了识别和分类与任务相关话语的性能,并积极影响下游信息抽取任务的性能。在一个包含约7000个医生与病人对话的语料库上评测MedFilter,实验结果显示在PR曲线下的面积上MedFilter比SOTA基线高出了10%。识别与任务相关的话语有利于下游医学处理,MedFilter在症状、药物和投诉抽取任务上分别提升了15%、105%和23%。
论文代码:
https://github.com/sopankhosla/MedFilter
论文地址:
https://arxiv.org/abs/2010.02246
由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
(1)点击页面最上方"AINLP",进入公众号主页。
(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。
感谢支持,比心。
推荐阅读
征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)
完结撒花!李宏毅老师深度学习与人类语言处理课程视频及课件(附下载)
模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法
文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化
斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用
关于AINLP
AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。
阅读至此了,分享、点赞、在看三选一吧🙏