项目名称: 基于模糊逻辑的大规模强化学习理论及方法

项目编号: No.61472262

项目类型: 面上项目

立项/批准年度: 2015

项目学科: 自动化技术、计算机技术

项目作者: 刘全

作者单位: 苏州大学

项目金额: 82万元

中文摘要: 本项目针对在解决大规模强化学习问题时存在的维数灾问题,提出基于一型和二型模糊逻辑的强化学习方法。主要思想是将强化学习方法与一型、二型模糊逻辑和神经网络相结合,构建可用于大规模强化学习问题的神经模糊强化学习模型:⑴使用双层模糊推理系统或基于神经元的模糊推理系统对状态空间进行特征表示,可以有效的减少状态维数,加快强化学习算法的收敛速度;⑵构建基于二型模糊推理的二型模糊强化学习模型,进一步提高算法处理不确定性的能力以及对噪声干扰的鲁棒性;⑶采用交叉熵优化方法优化模糊强化学习模型的隶属度函数参数,以提高Q值函数的精确性。⑷将所构建的几个模糊强化学习系统用于大规模Deep Web网络信息搜索中,解决由于状态空间的高维性及语义信息的不确定性引起的Deep Web搜索中收敛速度慢甚至无法收敛的问题。

中文关键词: 强化学习;模糊逻辑;神经网络;函数逼近;基函数优化

英文摘要: In allusion to the problem of the curse of dimensionality when dealing with reinforcement learning problems with large scale, this project puts forward several reinforcement learning methods based on type-1 and type-2 fuzzy logic. The main idea is to construct the neural fuzzy reinforcement learning models applied to the reinforcement learning problems with large scale, which combines the type-1 fuzzy inference, type-2 fuzzy inference and neural fuzzy inference with reinforcement learning methods.Using double layer fuzzy inference system or fuzzy inference system that based on neuro nuits to represent the features of state space, which can efficiently decrease the dimension of state space and increase the speed of convergence; Constructing a type-2 fuzzy reinforcement learning model based on type-2 fuzzy inference, which can improve the ability of handling uncertainty and be robust to noise; In order to improve the accuracy of Q value functions, the cross entropy optimization method is used to optimize the parameters of membership functions; Besides, the project plans to apply the proposed three methods to the algorithms used in the deep web, which can help solve the problems of slow convergence speed or non-convergenc caused by the high dimension of state space or the uncertainties of semantic information.

英文关键词: Reinforcement learning;fuzzy logic;neural network;function approximation;basis function optimization

成为VIP会员查看完整内容
6

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
ACL2022 | 基于强化学习的实体对齐
专知会员服务
33+阅读 · 2022年3月15日
【NeurIPS 2021】基于次模优化的规则学习算法框架
专知会员服务
33+阅读 · 2021年11月30日
专知会员服务
79+阅读 · 2021年10月15日
专知会员服务
29+阅读 · 2021年9月14日
专知会员服务
42+阅读 · 2021年5月24日
专知会员服务
80+阅读 · 2020年12月11日
多智能体深度强化学习的若干关键科学问题
专知会员服务
171+阅读 · 2020年5月24日
最新《经济学中的强化学习》2020大综述,42页pdf128篇文献
ACL2022 | 基于强化学习的实体对齐
专知
1+阅读 · 2022年3月15日
DeepMind提出强化学习新方法,可实现人机合作
现代情感分析方法
算法与数学之美
13+阅读 · 2018年1月12日
深度学习中的五大正则化方法和七大优化策略
全球人工智能
11+阅读 · 2017年12月25日
【强化学习】强化学习+深度学习=人工智能
产业智能官
51+阅读 · 2017年8月11日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Chinese Idiom Paraphrasing
Arxiv
0+阅读 · 2022年4月15日
Challenges for Open-domain Targeted Sentiment Analysis
小贴士
相关VIP内容
ACL2022 | 基于强化学习的实体对齐
专知会员服务
33+阅读 · 2022年3月15日
【NeurIPS 2021】基于次模优化的规则学习算法框架
专知会员服务
33+阅读 · 2021年11月30日
专知会员服务
79+阅读 · 2021年10月15日
专知会员服务
29+阅读 · 2021年9月14日
专知会员服务
42+阅读 · 2021年5月24日
专知会员服务
80+阅读 · 2020年12月11日
多智能体深度强化学习的若干关键科学问题
专知会员服务
171+阅读 · 2020年5月24日
最新《经济学中的强化学习》2020大综述,42页pdf128篇文献
相关资讯
ACL2022 | 基于强化学习的实体对齐
专知
1+阅读 · 2022年3月15日
DeepMind提出强化学习新方法,可实现人机合作
现代情感分析方法
算法与数学之美
13+阅读 · 2018年1月12日
深度学习中的五大正则化方法和七大优化策略
全球人工智能
11+阅读 · 2017年12月25日
【强化学习】强化学习+深度学习=人工智能
产业智能官
51+阅读 · 2017年8月11日
相关基金
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员