项目名称: 基于自主学习的Ad hoc Agent序贯决策研究

项目编号: No.61502322

项目类型: 青年科学基金项目

立项/批准年度: 2016

项目学科: 其他

项目作者: 陈盈科

作者单位: 四川大学

项目金额: 20万元

中文摘要: 多智能体(Agent)决策技术的研究常假设智能体之间通过通信与协调来完成既定任务。该假设不适用于具有竞争关系的多智能体系统。因此,在未知决策环境下,开发具有自适应能力的智能体,即Ad hoc Agent,是多智能体研究领域极具挑战的新兴问题。本项目将提出一个基于个体智能体自主学习与决策的新框架,以构造并求解多Ad hoc Agent序贯决策问题。其主要研究内容包括:通过机器学习方法,使Ad hoc Agent能从交互数据中自主构造出准确刻画其他智能体行为特征的模型,并更新自身的决策模型;在此基础上,将针对个体智能体行为模型的学习算法,推广到学习群体智能体抽象行为中;最终搭建一个以无人驾驶飞机仿真为背景的Ad hoc Agent仿真平台。本项目期望构造能自主发掘并合理应对陌生智能体行为的新型Ad hoc Agent,为将多智能体技术应用于更加复杂多变的现实场景中,提供理论依据与实践指导。

中文关键词: 决策方式;模型学习;不确定性

英文摘要: Multi-agent decision making techniques always assume cooperative agents that can resolve pre-defined tasks through communication and coordination. The techniques however are not applicable for solving decision problems with competitive agents. It is a challenge to develop an adaptive agent, namely Ad hoc agent, that can construct and solve decision problems in an environment commonly shared by other agents of unknown relationships. This project will solve sequential decision making problems involving Ad hoc agents from individual agent perspective. A subject agent will learn behavior of other ad hoc agents by adapting machine learning techniques, and accordingly update its own decision models. This project will extend learning algorithms for constructing behavioral model of a single agent to learn behavioral patterns of a population of other agents. Based on the scenario of unmanned aerial vehicle, this project will build a platform for simulating interactions, performing learning and conducting evaluation for ad hoc agents. In summary, this project will develop a new type of Ad hoc agent that can actively explore the environment with other unknown agents. The research outcomes will facilitate applications of multi-agent technologies in complex problem domains, and provide theoretical guarantees and practical guidelines.

英文关键词: Decision Making;Model Learning;Uncertainty

成为VIP会员查看完整内容
39

相关内容

【多智能体学习】DeepMind教程,231页PPT
专知会员服务
126+阅读 · 2022年3月25日
【AAAI2022】一种基于状态扰动的鲁棒强化学习算法
专知会员服务
35+阅读 · 2022年1月31日
【2021新书】分布式优化,博弈和学习算法,227页pdf
专知会员服务
228+阅读 · 2021年5月25日
专知会员服务
112+阅读 · 2021年1月1日
【Alma Mate博士论文】深度架构持续学习,附150页pdf与Slides
专知会员服务
45+阅读 · 2020年11月18日
【康奈尔】最新《强化学习基础》CS 6789课程
专知会员服务
68+阅读 · 2020年9月27日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
128+阅读 · 2020年7月20日
基于自监督的可逆性强化学习方法
AI前线
4+阅读 · 2021年12月3日
DAI2020 SMARTS 自动驾驶挑战赛(深度强化学习)
深度强化学习实验室
15+阅读 · 2020年8月15日
Meta-Learning 元学习:学会快速学习
极市平台
75+阅读 · 2018年12月19日
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
27+阅读 · 2018年8月17日
干货|浅谈强化学习的方法及学习路线
机器学习算法与Python学习
16+阅读 · 2018年3月28日
【强化学习】易忽略的强化学习知识之基础知识及MDP
产业智能官
19+阅读 · 2017年12月22日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
16+阅读 · 2009年12月31日
国家自然科学基金
3+阅读 · 2009年12月31日
Arxiv
16+阅读 · 2021年11月27日
Arxiv
11+阅读 · 2018年4月25日
小贴士
相关资讯
基于自监督的可逆性强化学习方法
AI前线
4+阅读 · 2021年12月3日
DAI2020 SMARTS 自动驾驶挑战赛(深度强化学习)
深度强化学习实验室
15+阅读 · 2020年8月15日
Meta-Learning 元学习:学会快速学习
极市平台
75+阅读 · 2018年12月19日
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
27+阅读 · 2018年8月17日
干货|浅谈强化学习的方法及学习路线
机器学习算法与Python学习
16+阅读 · 2018年3月28日
【强化学习】易忽略的强化学习知识之基础知识及MDP
产业智能官
19+阅读 · 2017年12月22日
相关基金
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
16+阅读 · 2009年12月31日
国家自然科学基金
3+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员