会员服务 ·

回放 | 华为诺亚方舟ICLR满分论文：基于强化学习的因果发现

2020 年 4 月 1 日 AI科技评论

文 | 朱胜宇

编 | 贾伟

在昨天我们进行了第四期【ICLR 2020 系列论文解读公开课】，来自华为诺亚实验室的高级研究员朱胜宇博士，就他在ICLR 2020 上的满分论文《Causal Discovery with Reinforcement Learning》做了精彩分享。我们在本文中：

1、论文简介；

2、放入回放视频；

3、解读PTT展示。

如下：

论文简介：

论文地址：https://arxiv.org/pdf/1906.04477.pdf

开源地址：https://github.com/huawei-noah/trustworthyAI

因果研究作为下一个潜在的热点，已经吸引了机器学习/深度学习领域的的广泛关注，例如Youshua Bengio和Fei-Fei Li近期都有相关的工作。因果研究中一个经典的问题是“因果发现”问题——从被动可观测的数据中发现潜在的因果图结构。

华为诺亚方舟实验室因果研究团队将强化学习应用到打分法的因果发现算法中，通过基于自注意力机制的encoder-decoder神经网络模型探索数据之间的关系，结合因果结构的条件，并使用策略梯度的强化学习算法对神经网络参数进行训练，最终得到因果图结构。

在学术界常用的一些数据模型中，该方法在中等规模的图上的表现优于其他方法，包括传统的因果发现算法和近期的基于梯度的算法。同时该方法非常灵活，可以和任意的打分函数结合使用。

直播回放：

PPT 展示：

完整PPT，可关注「AI科技评论」公众号，后台回复「朱胜宇@ICLR2020」下载。

ICLR 2020 系列论文解读

0、ICLR 2020 会议动态报道

疫情严重，ICLR2020 将举办虚拟会议，非洲首次 AI 国际顶会就此泡汤

疫情影响，ICLR 突然改为线上模式，2020年将成为顶会变革之年吗？

火爆的图机器学习，ICLR 2020上有哪些研究趋势？

1、直播

回放正在进行中……

2、Oral

01. Oral | 一种镜像生成式机器翻译模型：MGNMT

02. Oral | 额外高斯先验目标，缓解负多样性无知

03. Oral | 引入额外门控运算，LSTM稍做修改，性能便堪比Transformer-XL

04. Oral | 并行蒙卡树搜索，性能无损，线性加速，勇闯「消消乐」1000关！

05. Oral | 元强化学习迎来一盆冷水：不比元Q学习好多少

06. Oral | 用群卷积建立深度、等变的胶囊网络

07. Oral | 谷歌推出分布式强化学习框架SEED，性能“完爆”IMPALA，可扩展数千台机器，还很便宜

3、Spotlight

01. Spotlight | 模型参数这么多，泛化能力为什么还能这么强？

02. Spotlight | 公平与精确同样重要！CMU提出学习公平表征方法，实现算法公平

03. Spotlight | 组合泛化能力太差？用深度学习融合组合求解器试试

04. Spotlight | 加速NAS，仅用0.1秒完成搜索

05. Spotlight | 华盛顿大学：图像分类中对可实现攻击的防御（视频解读）

4、Poster

01. Poster | 华为诺亚：巧妙思想，NAS与「对抗」结合，速率提高11倍

02. Poster | 抛开卷积，多头自注意力能够表达任何卷积操作

03. Poster | NAS 太难了，搜索结果堪比随机采样！华为给出 6 条建议

04. Poster | 清华提 NExT 框架，用「神经元执行树」学习可解释性

05. Poster | 谷歌最新研究：用“复合散度”量化模型合成泛化能力

06. Poster | 完胜 BERT，谷歌最佳 NLP 预训练模型开源，单卡训练仅需 4 天

07. Poster | FSNet：利用卷积核概要进行深度卷积神经网络的压缩

08. Poster | "同步平均教学"框架为无监督学习提供更鲁棒的伪标签

阅读原文，直达 “ICLR 2020" 专题

登录查看更多

相关内容

因果发现

关注 25

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

121+阅读 · 2020年5月18日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

AAAI 2020 | 滴滴&东北大学提出自动结构化剪枝压缩算法框架，性能提升高达120倍

专知会员服务

30+阅读 · 2020年2月26日

AAAI2020最新「因果推理表示学习」122页ppt，Georgia、Buffalo、阿里巴巴与Virginia

专知会员服务

164+阅读 · 2020年2月12日

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【图灵奖Yoshua Bengio】ICLR2020论文：一个元转移的目标学习解开因果机制（A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms）

专知会员服务

55+阅读 · 2019年9月26日

图灵奖Yoshua Bengio ICLR 2020再出新作：通过元学习发掘因果机制

学术头条

15+阅读 · 2019年12月25日

NeurIPS提前看 | 四篇论文，一窥元学习的最新研究进展

机器之心

12+阅读 · 2019年12月9日

今晚，华为诺亚方舟NeurIPS 2019论文分享：基于少量数据的神经网络模型压缩技术

机器之心

11+阅读 · 2019年11月21日

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

CVPR2019满分文章 | 强化跨模态匹配和自监督模仿学习（文末源码）

计算机视觉战队

13+阅读 · 2019年3月12日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

ICLR 2019论文投稿近1600篇，强化学习最热门

AI100

5+阅读 · 2018年9月28日

OpenAI ICLR 2018论文汇总：主要兴趣为强化学习

论智

19+阅读 · 2018年5月1日

【ICLR 2018录用结果出炉】23篇oral干货，强化学习、对抗网络、可解释性最受关注

新智元

3+阅读 · 2018年1月31日

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

产业智能官

41+阅读 · 2017年8月11日

Interference and Generalization in Temporal Difference Learning

Arxiv

8+阅读 · 2020年3月13日

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Arxiv

25+阅读 · 2019年10月30日

Meta Learning for Task-Driven Video Summarization

Arxiv

6+阅读 · 2019年7月29日

Playing Text-Adventure Games with Graph-Based Deep Reinforcement Learning

Arxiv

5+阅读 · 2019年3月25日

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

Deep Reinforcement Learning: An Overview

Arxiv

17+阅读 · 2018年11月26日

Doubly Attentive Transformer Machine Translation

Arxiv

4+阅读 · 2018年7月30日

Scheduled Multi-Task Learning: From Syntax to Translation

Arxiv

5+阅读 · 2018年4月24日

Cache-Enabled Dynamic Rate Allocation via Deep Self-Transfer Reinforcement Learning

Arxiv

4+阅读 · 2018年3月30日

Human Interaction with Recommendation Systems

Arxiv

6+阅读 · 2018年3月28日

VIP会员