Efficiently solving problems with large action spaces using A* search has been of importance to the artificial intelligence community for decades. This is because the computation and memory requirements of A* search grow linearly with the size of the action space. This burden becomes even more apparent when A* search uses a heuristic function learned by computationally expensive function approximators, such as deep neural networks. To address this problem, we introduce Q* search, a search algorithm that uses deep Q-networks to guide search in order to take advantage of the fact that the sum of the transition costs and heuristic values of the children of a node can be computed with a single forward pass through a deep Q-network without explicitly generating those children. This significantly reduces computation time and requires only one node to be generated per iteration. We use Q* search to solve the Rubik's cube when formulated with a large action space that includes 1872 meta-actions and find that this 157-fold increase in the size of the action space incurs less than a 4-fold increase in computation time and less than a 3-fold increase in number of nodes generated when performing Q* search. Furthermore, Q* search is up to 129 times faster and generates up to 1288 times fewer nodes than A* search. Finally, although obtaining admissible heuristic functions from deep neural networks is an ongoing area of research, we prove that Q* search is guaranteed to find a shortest path given a heuristic function that neither overestimates the cost of a shortest path nor underestimates the transition cost.


翻译:解决具有大动作空间的问题需要高效地使用A*搜索,这对于人工智能社区几十年来一直是非常重要的。这是因为A*搜索的计算和内存要求与动作空间的大小成线性关系。当A*搜索使用计算密集型函数逼近器(例如深度神经网络)学习启发函数时,这个负担变得更为明显。为了解决这个问题,我们引入了Q*搜索,一种使用深度Q网络指导搜索的搜索算法,以利用一个节点的子节点的转移成本和启发值之和可以通过单次前向传递深度Q网络来计算,而无需明确生成这些子节点的事实。这显著减少了计算时间,并且每次迭代仅需要生成一个节点。我们使用Q*搜索解决魔方问题,该问题用大动作空间(包括1872个元动作)制定,并发现该动作空间增加了157倍,因此执行Q*搜索的计算时间仅增加了不到4倍,生成的节点数量增加了不到3倍。此外,与A*搜索相比,Q*搜索速度提高了129倍,生成的节点数减少了1288倍。最后,虽然从深度神经网络获得合理的启发式函数仍是一个正在研究的领域,但我们证明,如果存在一个既不高估最短路径的成本,也不低估转移成本的启发函数,则Q*搜索将保证找到一条最短路径。

0
下载
关闭预览

相关内容

【WSDM2022】基于约束聚类学习离散表示的高效密集检索
专知会员服务
26+阅读 · 2021年11月16日
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
16+阅读 · 2020年12月4日
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
57+阅读 · 2020年5月9日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
量化金融强化学习论文集合
专知
13+阅读 · 2019年12月18日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月11日
Neural Architecture Search without Training
Arxiv
10+阅读 · 2021年6月11日
Arxiv
11+阅读 · 2020年12月2日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员