基于模糊逻辑的大规模强化学习理论及方法 - 专知基金

会员服务 ·

1

强化学习 · 模糊逻辑 · 神经网络 · 函数逼近 · 基函数优化 ·

2014 年 12 月 31 日

基于模糊逻辑的大规模强化学习理论及方法

国家自然科学基金

国家自然科学基金委员会

项目名称： 基于模糊逻辑的大规模强化学习理论及方法

项目编号： No.61472262

项目类型： 面上项目

立项/批准年度： 2015

项目学科： 自动化技术、计算机技术

项目作者： 刘全

作者单位： 苏州大学

项目金额： 82万元

中文摘要： 本项目针对在解决大规模强化学习问题时存在的维数灾问题，提出基于一型和二型模糊逻辑的强化学习方法。主要思想是将强化学习方法与一型、二型模糊逻辑和神经网络相结合，构建可用于大规模强化学习问题的神经模糊强化学习模型：⑴使用双层模糊推理系统或基于神经元的模糊推理系统对状态空间进行特征表示，可以有效的减少状态维数，加快强化学习算法的收敛速度；⑵构建基于二型模糊推理的二型模糊强化学习模型，进一步提高算法处理不确定性的能力以及对噪声干扰的鲁棒性；⑶采用交叉熵优化方法优化模糊强化学习模型的隶属度函数参数，以提高Q值函数的精确性。⑷将所构建的几个模糊强化学习系统用于大规模Deep Web网络信息搜索中，解决由于状态空间的高维性及语义信息的不确定性引起的Deep Web搜索中收敛速度慢甚至无法收敛的问题。

中文关键词： 强化学习；模糊逻辑；神经网络；函数逼近；基函数优化

英文摘要： In allusion to the problem of the curse of dimensionality when dealing with reinforcement learning problems with large scale, this project puts forward several reinforcement learning methods based on type-1 and type-2 fuzzy logic. The main idea is to construct the neural fuzzy reinforcement learning models applied to the reinforcement learning problems with large scale, which combines the type-1 fuzzy inference, type-2 fuzzy inference and neural fuzzy inference with reinforcement learning methods.Using double layer fuzzy inference system or fuzzy inference system that based on neuro nuits to represent the features of state space, which can efficiently decrease the dimension of state space and increase the speed of convergence; Constructing a type-2 fuzzy reinforcement learning model based on type-2 fuzzy inference, which can improve the ability of handling uncertainty and be robust to noise; In order to improve the accuracy of Q value functions, the cross entropy optimization method is used to optimize the parameters of membership functions; Besides, the project plans to apply the proposed three methods to the algorithms used in the deep web, which can help solve the problems of slow convergence speed or non-convergenc caused by the high dimension of state space or the uncertainties of semantic information.

英文关键词： Reinforcement learning;fuzzy logic;neural network;function approximation;basis function optimization

成为VIP会员查看完整内容

7

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

ACL2022 | 基于强化学习的实体对齐

ACL2022 | 基于强化学习的实体对齐

专知会员服务

35+阅读 · 2022年3月15日

【AAAI2022】一种基于随机计划者-执行者-评论家模型的无监督图像柔性配准方法

【AAAI2022】一种基于随机计划者-执行者-评论家模型的无监督图像柔性配准方法

专知会员服务

22+阅读 · 2022年2月3日

【NeurIPS 2021】基于次模优化的规则学习算法框架

【NeurIPS 2021】基于次模优化的规则学习算法框架

专知会员服务

34+阅读 · 2021年11月30日

基于预训练语言模型的文本生成研究综述

专知会员服务

82+阅读 · 2021年10月15日

专家控制系统

专知会员服务

37+阅读 · 2021年9月14日

证据推理理论及其应用

专知会员服务

46+阅读 · 2021年5月24日

基于深度强化学习的组合优化研究进展

专知会员服务

88+阅读 · 2020年12月11日

多智能体深度强化学习的若干关键科学问题

多智能体深度强化学习的若干关键科学问题

专知会员服务

193+阅读 · 2020年5月24日

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

专知会员服务

120+阅读 · 2020年4月6日

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

专知会员服务

148+阅读 · 2019年12月28日

ACL2022 | 基于强化学习的实体对齐

ACL2022 | 基于强化学习的实体对齐

专知

1+阅读 · 2022年3月15日

DeepMind提出强化学习新方法，可实现人机合作

DeepMind提出强化学习新方法，可实现人机合作

AI前线

8+阅读 · 2021年12月13日

【NeurIPS 2021】基于次模优化的规则学习算法框架

【NeurIPS 2021】基于次模优化的规则学习算法框架

专知

0+阅读 · 2021年11月30日

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

机器之心

18+阅读 · 2019年6月12日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

产业智能官

49+阅读 · 2018年7月4日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

25+阅读 · 2018年5月5日

现代情感分析方法

现代情感分析方法

算法与数学之美

14+阅读 · 2018年1月12日

深度学习中的五大正则化方法和七大优化策略

深度学习中的五大正则化方法和七大优化策略

全球人工智能

11+阅读 · 2017年12月25日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于多核表示和模糊近似的混合数据分类方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于云计算的自适应分布式差分进化算法研究

国家自然科学基金

1+阅读 · 2013年12月31日

移动自组织网络自适应性研究——基于模糊逻辑的跨层分析及设计

国家自然科学基金

1+阅读 · 2013年12月31日

基于模糊逻辑的失血性休克闭环复苏决策优化算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

不确定环境下基于HTN的应急任务规划方法研究

国家自然科学基金

15+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

多状态系统模糊状态分配及其可靠性概率风险评价方法研究

国家自然科学基金

1+阅读 · 2011年12月31日

浅海波导中基于模糊逻辑的恒虚警检测方法研究

国家自然科学基金

0+阅读 · 2008年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

"splink" is happy and "phrouth" is scary: Emotion Intensity Analysis for Nonsense Words

Arxiv

0+阅读 · 2022年4月20日

Large Scale Diverse Combinatorial Optimization: ESPN Fantasy Football Player Trades

Arxiv

0+阅读 · 2022年4月19日

Inference for Cluster Randomized Experiments with Non-ignorable Cluster Sizes

Inference for Cluster Randomized Experiments with Non-ignorable Cluster Sizes

Arxiv

0+阅读 · 2022年4月18日

New conforming finite element divdiv complexes in three dimensions

Arxiv

0+阅读 · 2022年4月17日

One-Cycle Pruning: Pruning ConvNets Under a Tight Training Budget

Arxiv

0+阅读 · 2022年4月16日

Perfectly Balanced: Improving Transfer and Robustness of Supervised Contrastive Learning

Arxiv

0+阅读 · 2022年4月15日

Chinese Idiom Paraphrasing

Chinese Idiom Paraphrasing

Arxiv

0+阅读 · 2022年4月15日

Proximal nested sampling for high-dimensional Bayesian model selection

Proximal nested sampling for high-dimensional Bayesian model selection

Arxiv

0+阅读 · 2022年4月15日

Challenges for Open-domain Targeted Sentiment Analysis

Challenges for Open-domain Targeted Sentiment Analysis

Arxiv

1+阅读 · 2022年4月15日

Controllable Multi-Interest Framework for Recommendation

Arxiv

18+阅读 · 2020年8月3日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

基函数优化

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关VIP内容

ACL2022 | 基于强化学习的实体对齐

ACL2022 | 基于强化学习的实体对齐

专知会员服务

35+阅读 · 2022年3月15日

【AAAI2022】一种基于随机计划者-执行者-评论家模型的无监督图像柔性配准方法

【AAAI2022】一种基于随机计划者-执行者-评论家模型的无监督图像柔性配准方法

专知会员服务

22+阅读 · 2022年2月3日

【NeurIPS 2021】基于次模优化的规则学习算法框架

【NeurIPS 2021】基于次模优化的规则学习算法框架

专知会员服务

34+阅读 · 2021年11月30日

基于预训练语言模型的文本生成研究综述

专知会员服务

82+阅读 · 2021年10月15日

专家控制系统

专知会员服务

37+阅读 · 2021年9月14日

证据推理理论及其应用

专知会员服务

46+阅读 · 2021年5月24日

基于深度强化学习的组合优化研究进展

专知会员服务

88+阅读 · 2020年12月11日

多智能体深度强化学习的若干关键科学问题

多智能体深度强化学习的若干关键科学问题

专知会员服务

193+阅读 · 2020年5月24日

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

专知会员服务

120+阅读 · 2020年4月6日

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

专知会员服务

148+阅读 · 2019年12月28日

相关资讯

ACL2022 | 基于强化学习的实体对齐

ACL2022 | 基于强化学习的实体对齐

专知

1+阅读 · 2022年3月15日

DeepMind提出强化学习新方法，可实现人机合作

DeepMind提出强化学习新方法，可实现人机合作

AI前线

8+阅读 · 2021年12月13日

【NeurIPS 2021】基于次模优化的规则学习算法框架

【NeurIPS 2021】基于次模优化的规则学习算法框架

专知

0+阅读 · 2021年11月30日

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

机器之心

18+阅读 · 2019年6月12日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

产业智能官

49+阅读 · 2018年7月4日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

25+阅读 · 2018年5月5日

现代情感分析方法

现代情感分析方法

算法与数学之美

14+阅读 · 2018年1月12日

深度学习中的五大正则化方法和七大优化策略

深度学习中的五大正则化方法和七大优化策略

全球人工智能

11+阅读 · 2017年12月25日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于多核表示和模糊近似的混合数据分类方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于云计算的自适应分布式差分进化算法研究

国家自然科学基金

1+阅读 · 2013年12月31日

移动自组织网络自适应性研究——基于模糊逻辑的跨层分析及设计

国家自然科学基金

1+阅读 · 2013年12月31日

基于模糊逻辑的失血性休克闭环复苏决策优化算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

不确定环境下基于HTN的应急任务规划方法研究

国家自然科学基金

15+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

多状态系统模糊状态分配及其可靠性概率风险评价方法研究

国家自然科学基金

1+阅读 · 2011年12月31日

浅海波导中基于模糊逻辑的恒虚警检测方法研究

国家自然科学基金

0+阅读 · 2008年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

相关论文

"splink" is happy and "phrouth" is scary: Emotion Intensity Analysis for Nonsense Words

Arxiv

0+阅读 · 2022年4月20日

Large Scale Diverse Combinatorial Optimization: ESPN Fantasy Football Player Trades

Arxiv

0+阅读 · 2022年4月19日

Inference for Cluster Randomized Experiments with Non-ignorable Cluster Sizes

Inference for Cluster Randomized Experiments with Non-ignorable Cluster Sizes

Arxiv

0+阅读 · 2022年4月18日

New conforming finite element divdiv complexes in three dimensions

Arxiv

0+阅读 · 2022年4月17日

One-Cycle Pruning: Pruning ConvNets Under a Tight Training Budget

Arxiv

0+阅读 · 2022年4月16日

Perfectly Balanced: Improving Transfer and Robustness of Supervised Contrastive Learning

Arxiv

0+阅读 · 2022年4月15日

Chinese Idiom Paraphrasing

Chinese Idiom Paraphrasing

Arxiv

0+阅读 · 2022年4月15日

Proximal nested sampling for high-dimensional Bayesian model selection

Proximal nested sampling for high-dimensional Bayesian model selection

Arxiv

0+阅读 · 2022年4月15日

Challenges for Open-domain Targeted Sentiment Analysis

Challenges for Open-domain Targeted Sentiment Analysis

Arxiv

1+阅读 · 2022年4月15日

Controllable Multi-Interest Framework for Recommendation

Arxiv

18+阅读 · 2020年8月3日

微信扫码咨询专知VIP会员