【AAAI2023】基于序图的因果结构强化学习 - 专知

会员服务 ·

0

【AAAI2023】基于序图的因果结构强化学习

2022 年 11 月 25 日 专知

学习描述观测数据因果关系的有向无环图(DAG)是一项非常具有挑战性但又非常重要的任务。由于观测数据的数量和质量有限，以及因果图的不可识别性，几乎不可能推断出单个精确的DAG。一些方法通过马尔可夫链蒙特卡罗(MCMC)逼近DAG的后验分布来探索DAG空间，但DAG空间具有超指数增长的性质，准确刻画DAG空间的整体分布是非常棘手的。本文提出了一种基于序图的因果结构强化学习(RCL-OG)方法，该方法使用序图代替MCMC来建模不同的DAG拓扑顺序，从而减小问题的规模。RCLOG首先用一种新的奖励机制定义强化学习，以效能的方式近似排序的后验分布，并使用深度Q学习在节点之间更新和传递奖励。其次，得到顺序图上节点的概率转移模型，并计算不同顺序的后验概率。这样我们就可以在这个模型上进行抽样，得到高概率的排序。在综合数据集和基准数据集上的实验表明，RCL-OG提供了精确的后验概率逼近，并取得了比Baseline因果发现算法更好的结果。

https://www.zhuanzhi.ai/paper/c90518730875122693a9e8cdefab601a

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“RCSL” 就可以获取《【AAAI2023】基于序图的因果结构强化学习》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

5

相关内容

DAG

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知会员服务

18+阅读 · 2022年12月11日

【AAAI2023】图序注意力网络

【AAAI2023】图序注意力网络

专知会员服务

46+阅读 · 2022年11月24日

【NeurIPS2022】协作多智能体强化学习中个体全局最大值的再思考

【NeurIPS2022】协作多智能体强化学习中个体全局最大值的再思考

专知会员服务

36+阅读 · 2022年9月23日

【WWW2022】学习和评估基于反事实和事实推理的图神经网络解释

【WWW2022】学习和评估基于反事实和事实推理的图神经网络解释

专知会员服务

53+阅读 · 2022年2月20日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

29+阅读 · 2022年1月24日

【AAAI2022】基于对比时空前置学习的视频自监督表示

【AAAI2022】基于对比时空前置学习的视频自监督表示

专知会员服务

20+阅读 · 2021年12月19日

【AAAI2022】通过自训练加强反事实分类

【AAAI2022】通过自训练加强反事实分类

专知会员服务

25+阅读 · 2021年12月10日

【NeurIPS2021】序一致因果图的多任务学习

【NeurIPS2021】序一致因果图的多任务学习

专知会员服务

20+阅读 · 2021年11月7日

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

45+阅读 · 2021年1月31日

【AAAI2021】层次图胶囊网络

【AAAI2021】层次图胶囊网络

专知会员服务

84+阅读 · 2020年12月18日

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

20+阅读 · 2022年12月11日

【AAAI2023】图序注意力网络

【AAAI2023】图序注意力网络

专知

6+阅读 · 2022年11月24日

【AAAI2023】基于历史对比学习的时序知识图谱推理

【AAAI2023】基于历史对比学习的时序知识图谱推理

专知

3+阅读 · 2022年11月23日

【简明书】强化学习的基础，111页pdf

【简明书】强化学习的基础，111页pdf

专知

1+阅读 · 2022年11月16日

【ICML2022】熵因果推理:图的可辨识性

【ICML2022】熵因果推理:图的可辨识性

专知

1+阅读 · 2022年8月6日

【WWW2022】学习和评估基于反事实和事实推理的图神经网络解释

【WWW2022】学习和评估基于反事实和事实推理的图神经网络解释

专知

4+阅读 · 2022年2月20日

【AAAI2022】基于图神经网络的统一离群点异常检测方法

【AAAI2022】基于图神经网络的统一离群点异常检测方法

专知

4+阅读 · 2022年2月12日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知

0+阅读 · 2022年1月24日

【AAAI2022】通过多任务学习改进证据深度学习

【AAAI2022】通过多任务学习改进证据深度学习

专知

2+阅读 · 2021年12月21日

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

专知

13+阅读 · 2021年2月24日

武器装备体系架构的跨领域组合决策分析与冲突消解方法

国家自然科学基金

117+阅读 · 2015年12月31日

基于超图的三维模型检索方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向非线性非高斯数据的因果结构学习算法研究

国家自然科学基金

2+阅读 · 2013年12月31日

动态多摄像头环境中拥挤多目标跟踪的联合建模与协同优化

国家自然科学基金

0+阅读 · 2013年12月31日

图的能量与排序问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

用户自适应的社会标签生成和优化模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

获取和预测多维属性产品的消费者偏好：基于稀疏和完整自我明示数据的混合方法

国家自然科学基金

0+阅读 · 2011年12月31日

一种新的多点随机搜索算法—#8212;类电磁机制算法的扩展与应用

国家自然科学基金

0+阅读 · 2009年12月31日

基于谓词规划树的规划方法的研究

国家自然科学基金

1+阅读 · 2009年12月31日

基于随机图模型的蛋白质三级结构预测算法研究

国家自然科学基金

1+阅读 · 2008年12月31日

Is Writing Prompts Really Making Art?

Arxiv

0+阅读 · 2023年2月2日

Multilevel Markov Chain Monte Carlo for Bayesian Elliptic Inverse Problems with Besov Random Tree Priors

Arxiv

0+阅读 · 2023年2月1日

Offline Estimation of Controlled Markov Chains: Minimaxity and Sample Complexity

Arxiv

0+阅读 · 2023年2月1日

Bandit Convex Optimisation Revisited: FTRL Achieves $\tilde{O}(t^{1/2})$ Regret

Arxiv

0+阅读 · 2023年2月1日

Dictionary-based Manifold Learning

Arxiv

0+阅读 · 2023年2月1日

Bridging Physics-Informed Neural Networks with Reinforcement Learning: Hamilton-Jacobi-Bellman Proximal Policy Optimization (HJBPPO)

Arxiv

0+阅读 · 2023年2月1日

Toward Efficient Gradient-Based Value Estimation

Arxiv

0+阅读 · 2023年1月31日

Naive imputation implicitly regularizes high-dimensional linear models

Arxiv

0+阅读 · 2023年1月31日

Sequential Strategic Screening

Arxiv

0+阅读 · 2023年1月31日

Memory Augmented Graph Neural Networks for Sequential Recommendation

Memory Augmented Graph Neural Networks for Sequential Recommendation

Arxiv

13+阅读 · 2019年12月26日

VIP会员

相关主题

相关VIP内容

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知会员服务

18+阅读 · 2022年12月11日

【AAAI2023】图序注意力网络

【AAAI2023】图序注意力网络

专知会员服务

46+阅读 · 2022年11月24日

【NeurIPS2022】协作多智能体强化学习中个体全局最大值的再思考

【NeurIPS2022】协作多智能体强化学习中个体全局最大值的再思考

专知会员服务

36+阅读 · 2022年9月23日

【WWW2022】学习和评估基于反事实和事实推理的图神经网络解释

【WWW2022】学习和评估基于反事实和事实推理的图神经网络解释

专知会员服务

53+阅读 · 2022年2月20日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

29+阅读 · 2022年1月24日

【AAAI2022】基于对比时空前置学习的视频自监督表示

【AAAI2022】基于对比时空前置学习的视频自监督表示

专知会员服务

20+阅读 · 2021年12月19日

【AAAI2022】通过自训练加强反事实分类

【AAAI2022】通过自训练加强反事实分类

专知会员服务

25+阅读 · 2021年12月10日

【NeurIPS2021】序一致因果图的多任务学习

【NeurIPS2021】序一致因果图的多任务学习

专知会员服务

20+阅读 · 2021年11月7日

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

45+阅读 · 2021年1月31日

【AAAI2021】层次图胶囊网络

【AAAI2021】层次图胶囊网络

专知会员服务

84+阅读 · 2020年12月18日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】多目标奖励与偏好优化：理论与算法

《无形的防御者？将定向能武器集成到反无人机框架的机遇与挑战》报告

自主化海军：海上无人系统与未来海战

迈向智能体系统规模化的科学

相关资讯

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

20+阅读 · 2022年12月11日

【AAAI2023】图序注意力网络

【AAAI2023】图序注意力网络

专知

6+阅读 · 2022年11月24日

【AAAI2023】基于历史对比学习的时序知识图谱推理

【AAAI2023】基于历史对比学习的时序知识图谱推理

专知

3+阅读 · 2022年11月23日

【简明书】强化学习的基础，111页pdf

【简明书】强化学习的基础，111页pdf

专知

1+阅读 · 2022年11月16日

【ICML2022】熵因果推理:图的可辨识性

【ICML2022】熵因果推理:图的可辨识性

专知

1+阅读 · 2022年8月6日

【WWW2022】学习和评估基于反事实和事实推理的图神经网络解释

【WWW2022】学习和评估基于反事实和事实推理的图神经网络解释

专知

4+阅读 · 2022年2月20日

【AAAI2022】基于图神经网络的统一离群点异常检测方法

【AAAI2022】基于图神经网络的统一离群点异常检测方法

专知

4+阅读 · 2022年2月12日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知

0+阅读 · 2022年1月24日

【AAAI2022】通过多任务学习改进证据深度学习

【AAAI2022】通过多任务学习改进证据深度学习

专知

2+阅读 · 2021年12月21日

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

专知

13+阅读 · 2021年2月24日

相关基金

武器装备体系架构的跨领域组合决策分析与冲突消解方法

国家自然科学基金

117+阅读 · 2015年12月31日

基于超图的三维模型检索方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向非线性非高斯数据的因果结构学习算法研究

国家自然科学基金

2+阅读 · 2013年12月31日

动态多摄像头环境中拥挤多目标跟踪的联合建模与协同优化

国家自然科学基金

0+阅读 · 2013年12月31日

图的能量与排序问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

用户自适应的社会标签生成和优化模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

获取和预测多维属性产品的消费者偏好：基于稀疏和完整自我明示数据的混合方法

国家自然科学基金

0+阅读 · 2011年12月31日

一种新的多点随机搜索算法—#8212;类电磁机制算法的扩展与应用

国家自然科学基金

0+阅读 · 2009年12月31日

基于谓词规划树的规划方法的研究

国家自然科学基金

1+阅读 · 2009年12月31日

基于随机图模型的蛋白质三级结构预测算法研究

国家自然科学基金

1+阅读 · 2008年12月31日

相关论文

Is Writing Prompts Really Making Art?

Arxiv

0+阅读 · 2023年2月2日

Multilevel Markov Chain Monte Carlo for Bayesian Elliptic Inverse Problems with Besov Random Tree Priors

Arxiv

0+阅读 · 2023年2月1日

Offline Estimation of Controlled Markov Chains: Minimaxity and Sample Complexity

Arxiv

0+阅读 · 2023年2月1日

Bandit Convex Optimisation Revisited: FTRL Achieves $\tilde{O}(t^{1/2})$ Regret

Arxiv

0+阅读 · 2023年2月1日

Dictionary-based Manifold Learning

Arxiv

0+阅读 · 2023年2月1日

Bridging Physics-Informed Neural Networks with Reinforcement Learning: Hamilton-Jacobi-Bellman Proximal Policy Optimization (HJBPPO)

Arxiv

0+阅读 · 2023年2月1日

Toward Efficient Gradient-Based Value Estimation

Arxiv

0+阅读 · 2023年1月31日

Naive imputation implicitly regularizes high-dimensional linear models

Arxiv

0+阅读 · 2023年1月31日

Sequential Strategic Screening

Arxiv

0+阅读 · 2023年1月31日

Memory Augmented Graph Neural Networks for Sequential Recommendation

Memory Augmented Graph Neural Networks for Sequential Recommendation

Arxiv

13+阅读 · 2019年12月26日

大家都在搜

大型语言模型

蓝牙安全攻防

朱克爱德华兹家族

精排模型-从MLP到行为序列：DIN、DIEN、MIMN、SIM、DSIN

微信扫码咨询专知VIP会员