论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

2019 年 1 月 17 日 开放知识图谱

论文链接:https://arxiv.org/pdf/1805.09927.pdf

来源:ACL2018


Motivation

远程监督是以一种生成关系抽取训练样本的方法,无需人工标注数据。但是远程监督引入了噪音,即存在很多的假正例。本文的出发点非常简单,希望通过强化学习的方法来训练一个假正例的判别器,它可以识别出数据集中的假正例,并加入到负例集中。产生更加干净的训练集,从而提高分类器的性能。

Relatedwork

对于远程监督的噪音,之前常用的做法是加attention机制,给以真正例更大的权重,给以假正例较小的权重,单这种方法是次优的。本文有一个有意思的地方,作者在文中指出,他在提交了ACL之后,发现已经有一篇相同的工作. Reinforcement learning for relation classification from noisy data参照论文笔记),是 feng 等人发表在AAAI 2018上的,两篇文章从立意到方法都基本一致,唯一不同的就是强化学习的reward不同。feng 等人的论文中 reward 来自预测概率,而这篇论文的 reward 是分类器的性能的改变。

Model:

远程监督中的强化学习框图

模型的整体结构如上图所示。首先对每一个关系,生成相应的正负样本,划训练集和验证集。在每一个epoch中,利用了 policy based agent,对训练集的正样本做筛选,对每个句子选择保留或者移除到负样本集,得到筛选后的训练集。然后在此训练集上训练关系抽取分类器,在验证集上做测试得到分类的F1值。根据分类器的 F1 值的变化得到 reward,最后利用 policy gradient 对参数作更新。下面介绍RL方法中几个基本要素:

  • States

为了满足MDP的条件,state不仅包含了当前句子的信息,还加入了过去句子的信息。对当前句子给予较大的权重,对过去句子给予较小的权重。句子的向量表示采用了常用的 word embeddingposition embedding

  • Actions

Agent 的作用是识别出正样本中的假正例,所以action包含了两种:判断当前句子为真正例并保留;判断为假正例并移除到负样本集中。

  • Rewards

Rewards 来自于关系抽取分类器的性能变化,论文中采用的是第i轮的F1值减去第i-1轮的F1值。

  • Policy Network

Policy Network 的作用相当于一个二元分类器,故论文采取了一个简单的CNN网络。

另外,Policy Network 采用了预训练的策略,目的是加快收敛。训练整体的流程如下图所示:

Experiments

       实验在远程监督常用的 NYT 数据集和主流方法做了比较。下表首先给出了在原始数据集、预训练的 agent 筛选后的数据集上、RL agent 筛选后的数据集上训练得到的分类器性能对比,可以看到,RL 有效提升了分类器的性能。

下面两张图给出了关系抽取分类器分别采用 CNN PCNN 时,加入 RL 和不加 RL 的分类结果的 PR 曲线图,可以看到加入 RL 提升了分类器的性能。

Conclusion

      本文利用强化学习的方法,对远程监督的数据集进行降噪,从而提升分类器的性能。另外,Agent Reward 来自于分类器性能的改变,不需要加入额外的监督信息。


论文笔记整理:叶志权,浙江大学硕士,研究方向为自然语言处理、知识图谱。



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

登录查看更多
29

相关内容

【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
61+阅读 · 2020年6月25日
《强化学习》简介小册,24页pdf
专知会员服务
274+阅读 · 2020年4月19日
【斯坦福大学-论文】实体上下文关系路径的知识图谱补全
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
175+阅读 · 2020年2月8日
专知会员服务
88+阅读 · 2020年1月20日
【强化学习】深度强化学习初学者指南
专知会员服务
182+阅读 · 2019年12月14日
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
AAAI 2019 | 基于分层强化学习的关系抽取
PaperWeekly
20+阅读 · 2019年3月27日
论文浅尝 | 用对抗学习做知识表示(NAACL2018)
开放知识图谱
5+阅读 · 2019年1月2日
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
论文浅尝 | 远程监督关系抽取的生成式对抗训练
开放知识图谱
17+阅读 · 2018年7月12日
论文浅尝 | Reinforcement Learning for Relation Classification
开放知识图谱
9+阅读 · 2017年12月10日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
9+阅读 · 2018年10月18日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
Arxiv
3+阅读 · 2018年8月27日
VIP会员
相关VIP内容
相关资讯
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
AAAI 2019 | 基于分层强化学习的关系抽取
PaperWeekly
20+阅读 · 2019年3月27日
论文浅尝 | 用对抗学习做知识表示(NAACL2018)
开放知识图谱
5+阅读 · 2019年1月2日
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
论文浅尝 | 远程监督关系抽取的生成式对抗训练
开放知识图谱
17+阅读 · 2018年7月12日
论文浅尝 | Reinforcement Learning for Relation Classification
开放知识图谱
9+阅读 · 2017年12月10日
相关论文
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
9+阅读 · 2018年10月18日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
Arxiv
3+阅读 · 2018年8月27日
Top
微信扫码咨询专知VIP会员