【导读】强化学习最新综述新鲜出炉。在这篇文章中,作者对强化学习进行了全面的研究,包括现有的挑战、不同技术的最新发展以及未来的发展方向。文章致力于提供一个清晰简单的研究框架,能够为新的研究人员或者想全面了解强化学习领域的人提供一个参考。

摘要: 强化学习是设计强调实时响应的人工智能系统的核心组成部分之一。强化学习能够影响系统在任意的环境中的行动,不管它之前是否了解环境模型。在这篇论文中,我们对强化学习进行了全面的研究,包括了现有挑战、不同技术的最新发展情况以及未来的发展方向等多个维度。本论文的基本目标是提供一个足够简单和清晰的框架,以介绍现有的强化学习方法,从而为新的研究人员和学者了解该领域的核心进展。首先,我们以一种易于理解和比较的方式阐述了强化学习的核心技术。然后,我们分析并描述了强化学习方法的最新发展。我们的分析指出,大多数模型关注于调优策略值,而不是在特定的推理状态下调优其他东西。

地址:

https://arxiv.org/abs/2001.06921

成为VIP会员查看完整内容
0
154

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

最新的技术进步提高了交通运输的质量。新的数据驱动方法为所有基于控制的系统(如交通、机器人、物联网和电力系统)带来了新的研究方向。将数据驱动的应用与运输系统相结合在最近的运输应用程序中起着关键的作用。本文综述了基于深度强化学习(RL)的交通控制的最新应用。其中,详细讨论了基于深度RL的交通信号控制(TSC)的应用,这在文献中已经得到了广泛的研究。综合讨论了TSC的不同问题求解方法、RL参数和仿真环境。在文献中,也有一些基于深度RL模型的自主驾驶应用研究。我们的调查广泛地总结了这一领域的现有工作,并根据应用程序类型、控制模型和研究的算法对它们进行了分类。最后,我们讨论了基于深度可编程逻辑语言的交通应用所面临的挑战和有待解决的问题。

成为VIP会员查看完整内容
0
104

强化一词来源于实验心理学中对动物学习的研究,它指的是某一事件的发生,与某一反应之间有恰当的关系,而这一事件往往会增加该反应在相同情况下再次发生的可能性。虽然心理学家没有使用“强化学习”这个术语,但它已经被人工智能和工程领域的理论家广泛采用,用来指代基于这一强化原理的学习任务和算法。最简单的强化学习方法使用的是一个常识,即如果一个行为之后出现了一个令人满意的状态,或者一个状态的改善,那么产生该行为的倾向就会得到加强。强化学习的概念在工程领域已经存在了几十年(如Mendel和McClaren 1970),在人工智能领域也已经存在了几十年(Minsky 1954, 1961;撒母耳1959;图灵1950)。然而,直到最近,强化学习方法的发展和应用才在这些领域占据了大量的研究人员。激发这种兴趣的是两个基本的挑战:1) 设计能够在复杂动态环境中在不确定性下运行的自主机器人代理,2) 为非常大规模的动态决策问题找到有用的近似解。

成为VIP会员查看完整内容
0
166

自然语言处理(NLP)帮助智能机器更好地理解人类语言,实现基于语言的人机交流。计算能力的最新发展和大量语言数据的出现,增加了使用数据驱动方法自动进行语义分析的需求。由于深度学习方法在计算机视觉、自动语音识别,特别是NLP等领域的应用取得了显著的进步,数据驱动策略的应用已经非常普遍。本调查对得益于深度学习的NLP的不同方面和应用进行了分类和讨论。它涵盖了核心的NLP任务和应用,并描述了深度学习方法和模型如何推进这些领域。我们进一步分析和比较不同的方法和最先进的模型。

成为VIP会员查看完整内容
0
152

【简介】随着深度表示学习的发展,强化学习(RL)已经成为了一个强大的学习框架,其可以在高维度空间中学习复杂的规则。这篇综述总结了深度强化学习(DRL)算法,提供了采用强化学习的自动驾驶任务的分类方法,重点介绍了算法上的关键挑战和在现实世界中将强化学习部署在自动驾驶方面的作用,以及最终评估,测试和加强强化学习和模仿学习健壮性的现有解决方案。

论文链接: https://arxiv.org/abs/2002.00444

介绍:

自动驾驶(AD)系统由多个感知级任务组成,由于采用了深度学习架构,这些任务现在已经达到了很高的精度。除了感知任务之外,自主驾驶系统还包含多个其他任务,传统的监督学习方法已经不再适用。首先,当对agent行为的预测发生变化时,从自动驾驶agent所处的环境中接收到的未来传感器观察到的结果,例如获取市区最佳驾驶速度的任务。其次,监督信号(如碰撞时间(TTC),相对于agent最佳轨迹的侧向误差)表示agent的动态变化以及环境中的不确定性。这些问题都需要定义随机损失函数来使其最大化。最后,agent需要学习当前环境新的配置参数,预测其所处的环境中每一时刻的最优决策。这表明在观察agent和其所处环境的情况下,一个高维度的空间能够给出大量唯一的配置参数。在这些场景中,我们的目标是解决一个连续决策的问题。在这篇综述中,我们将介绍强化学习的概念,强化学习是一种很有前景的解决方案和任务分类方法,特别是在驱动策略、预测感知、路径规划以及低层控制器设计等领域。我们还重点回顾了强化学习在自动驾驶领域当中各种现实的应用。最后,我们通过阐述应用当前诸如模仿学习和Q学习等强化学习算法时所面临的算力挑战和风险来激励使用者对强化学习作出改进。

章节目录:

section2: 介绍一个典型的自动驾驶系统及其各个组件。

section3: 对深度强化学习进行介绍,并简要讨论关键概念。

section4: 探讨在强化学习基本框架上对其进行更深层次,更加复杂的扩展。

section5: 对强化学习用于自动驾驶领域的所面临的问题提供一个概述。

section6: 介绍将强化学习部署到真实世界自动驾驶系统中所面临的挑战。

section7: 总结

成为VIP会员查看完整内容
0
86

异常检测是一个在各个研究领域和应用领域内得到广泛研究的重要问题。本研究的目的有两个方面:首先,我们对基于深度学习的异常检测的研究方法进行了系统全面的综述。此外,我们还回顾了这些方法对不同应用领域异常的应用,并评估了它们的有效性。我们根据所采用的基本假设和方法,将最先进的研究技术分为不同的类别。在每一类中,我们概述了基本的异常检测技术,以及它的变体,并给出了关键的假设,以区分正常行为和异常行为。对于我们介绍的每一类技术,我们还介绍了它们的优点和局限性,并讨论了这些技术在实际应用领域中的计算复杂性。最后,我们概述了研究中的未决问题和采用这些技术时所面临的挑战。

成为VIP会员查看完整内容
20190114-DEEP LEARNING FOR ANOMALY DETECTION A SURVEY.pdf
0
152

在过去的几年里,自然语言处理领域由于深度学习模型的大量使用而得到了发展。这份综述提供了一个NLP领域的简要介绍和一个快速的深度学习架构和方法的概述。然后,筛选了大量最近的研究论文,并总结了大量相关的贡献。NLP研究领域除了计算语言学的一些应用外,还包括几个核心的语言处理问题。然后讨论了目前的技术水平,并对该领域今后的研究提出了建议。

成为VIP会员查看完整内容
0
157
小贴士
相关VIP内容
专知会员服务
166+阅读 · 2020年4月19日
专知会员服务
152+阅读 · 2020年3月6日
专知会员服务
86+阅读 · 2020年2月8日
最新《分布式机器学习》论文综述最新DML进展,33页pdf
专知会员服务
78+阅读 · 2019年12月26日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
51+阅读 · 2019年12月23日
零样本图像分类综述 : 十年进展
专知会员服务
88+阅读 · 2019年11月16日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
157+阅读 · 2019年10月12日
相关资讯
相关论文
A Modern Introduction to Online Learning
Francesco Orabona
15+阅读 · 2019年12月31日
A Comprehensive Survey on Transfer Learning
Fuzhen Zhuang,Zhiyuan Qi,Keyu Duan,Dongbo Xi,Yongchun Zhu,Hengshu Zhu,Hui Xiong,Qing He
90+阅读 · 2019年11月7日
Playing Text-Adventure Games with Graph-Based Deep Reinforcement Learning
Prithviraj Ammanabrolu,Mark O. Riedl
4+阅读 · 2019年3月25日
Deep Node Ranking: an Algorithm for Structural Network Embedding and End-to-End Classification
Blaž Škrlj,Jan Kralj,Janez Konc,Marko Robnik-Šikonja,Nada Lavrač
4+阅读 · 2019年2月11日
Claudio Gambella,Bissan Ghaddar,Joe Naoum-Sawaya
10+阅读 · 2019年1月16日
Joaquin Vanschoren
116+阅读 · 2018年10月8日
Antoine J. -P. Tixier
10+阅读 · 2018年8月30日
Theme-weighted Ranking of Keywords from Text Documents using Phrase Embeddings
Debanjan Mahata,John Kuriakose,Rajiv Ratn Shah,Roger Zimmermann,John R. Talburt
5+阅读 · 2018年7月16日
Armand Joulin,Edouard Grave,Piotr Bojanowski,Maximilian Nickel,Tomas Mikolov
3+阅读 · 2017年10月30日
Top