强化学习的起源：从老鼠走迷宫到AlphaGo战胜人类

2022 年 7 月 11 日 THU数据派

  
  
    
   
   
     
    
    
      
     
     
       
      
      
        
       
       
          
          来源：新智元 
         
      
      
        
     
     
       
    
    
      
   
   
     
  
  
    
  
  
    
   
   
     
    
    
      
     
     
       
      
      
        
       
       
          
            本文为约2331字，建议阅读4分钟 
           
           本文介绍了基于模型的和无模型的两种强化学习。用人类和动物的学习方式进行举例，讲述了两种强化学习类型的起源、区别以及结合。

谈到强化学习，很多研究人员的肾上腺素便不受控制地飙升！它在游戏AI系统、现代机器人、芯片设计系统和其他应用中发挥着十分重要的作用。

强化学习算法有很多不同的类型，但主要分为两类：「基于模型的」和「无模型的」。

在与TechTalks的对话中，神经科学家、「智能的诞生」一书的作者Daeyeol Lee分别讨论了人类和动物强化学习的不同模式、人工智能和自然智能，以及未来的研究方向。

无模型的强化学习

19世纪后期，心理学家Edward Thorndike提出的「 效应定律 」成为了无模型强化学习的基础。

Thorndike提出，在特定情境中具有积极影响的行为，在该情境中更有可能再次发生，而产生负面影响的行为则不太可能再发生。

Thorndike在一个实验中探索了这一「效应定律」。

他把一只猫放在一个迷宫盒子中，并测量猫从盒中逃脱所需的时间。为了逃脱，猫必须操作一系列小工具，如绳子和杠杆。Thorndike观察到，当猫与谜盒互动时，它学会了有助于逃跑的行为。随着时间的推移，猫逃离盒子的速度越来越快。

Thorndike的结论是，猫可以从其行为提供的奖励和惩罚中进行学习。

「效应定律」后来为行为主义铺平了道路。行为主义是心理学的一个分支，试图从刺激和反应的角度来解释人类和动物的行为。

「效应定律」也是无模型强化学习的基础 。在无模型强化学习中，通过主体感知世界，然后采取行动，同时衡量奖励。

在无模型强化学习中，并不存在直接的知识或世界模型。RL代理必须通过反复试验，直接去体验每个动作的结果。

基于模型的强化学习

Thorndike的「效应定律」一直流行到20世纪30年代。当时另一位心理学家Edward Tolman在探索老鼠如何快速学会走迷宫时发现了一个重要的见解。在他的实验中，Tolman意识到动物可以在没有强化的情况下了解他们的环境。

例如，当一只老鼠在迷宫中被放出来时，它会自由地探索隧道，并逐渐了解环境的结构。如果随后将这只老鼠重新放进相同的环境，并提供强化信号，如寻找食物或寻找出口，那么它可以比没有探索过迷宫的动物更快地到达目标。

Tolman称之为「 潜在学习 」，这成为基于模型的强化学习的基础。

「潜在学习」使动物和人类对他们的世界形成一种心理表征，在他们的头脑中模拟假设的场景，并预测结果。

基于模型的强化学习的优点是它消除了agent在环境中进行试错的需要。

值得强调的一点是：基于模型的强化学习在开发能够掌握国际象棋和围棋等棋盘游戏的人工智能系统方面尤其成功，可能的原因是这些游戏的环境是确定的。

基于模型 VS 无模型

通常来说，基于模型的强化学习会非常耗时，在对时间极度敏感的时候，可能会发生致命的危险。

Lee说：「在计算上，基于模型的强化学习要复杂得多。首先你必须获得模型，进行心理模拟，然后你必须找到神经过程的轨迹，再采取行动。不过，基于模型的强化学习不一定就比无模型的RL复杂。」

当环境十分复杂时，倘若可以用一个相对简单的模型（该模型可以快速获得）进行建模，那么模拟就会简单得多，而且具有成本效益。

多种学习模式

其实，无论是基于模型的强化学习还是无模型的强化学习都不是一个完美的解决方案。无论你在哪里看到一个强化学习系统解决一个复杂的问题，它都有可能是同时使用基于模型和无模型的强化学习，甚至可能更多形式的学习。

神经科学的研究表明，人类和动物都有多种学习方式，而大脑在任何特定时刻都在这些模式之间不断切换。

最近几年，人们对创造结合多种强化学习模式的人工智能系统越来越感兴趣。

加州大学圣地亚哥分校的科学家最近的研究表明， 将无模型强化学习和基于模型的强化学习结合起来，可以在控制任务中取得卓越的表现 。

Lee表示：「如果你看看像AlphaGo这样复杂的算法，它既有无模型的RL元素，也有基于模型的RL元素，它根据棋盘配置学习状态值，这基本上是无模型的 RL，但它同时也进行基于模型的前向搜索。」

尽管取得了显著的成就，强化学习的进展仍然缓慢。一旦RL模型面临复杂且不可预测的环境，其性能就会开始下降。

Lee说：「我认为我们的大脑是一个学习算法的复杂世界，它们已经进化到可以处理许多不同的情况。」

除了在这些学习模式之间不断切换之外，大脑还设法一直保持和更新它们，即使是在它们没有积极参与决策的情况下。

心理学家Daniel Kahneman表示：「维护不同的学习模块并同时更新它们是有助于提高人工智能系统的效率和准确性。」

我们还需要清楚另一件事—— 如何在AI系统中应用正确的归纳偏置，以确保它们以具有成本效益的方式学习正确的东西 。

数十亿年的进化为人类和动物提供了有效学习所需的归纳偏置，同时使用尽可能少的数据。

归纳偏置可以理解为，从现实生活观察到的现象中，总结出规则，然后对模型做一定的约束，从而可以起到模型选择的作用，即从假设空间中选择出更符合现实规则的模型。

Lee说：「我们从环境中获得的信息非常少。使用这些信息，我们必须进行概括。原因是大脑存在归纳偏置，并且存在可以从一小组示例中概括出来的偏置。这是进化的产物，越来越多的神经科学家对此感兴趣。」

然而，虽然归纳偏置在物体识别任务中很容易理解，但在构建社会关系等抽象问题中就变得晦涩难懂。

未来，需要我们了解的还有很多~~~

参考资料：

https://thenextweb.com/news/everything-you-need-to-know-about-model-free-and-model-based-reinforcement-learning

——END——

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

DeepMind最新114页报告《多智能体强化学习中的新兴易货贸易行为》

专知会员服务

25+阅读 · 2022年7月15日

【硬核书】迁移学习多智能体强化学习系统，131页pdf

专知会员服务

147+阅读 · 2022年7月8日

基于强化学习的空战动作生成

专知会员服务

137+阅读 · 2022年6月19日

让人造太阳更近！DeepMind强化学习算法控制核聚变登上Nature

专知会员服务

23+阅读 · 2022年2月17日

DeepMind发69页长文掀开AlphaZero的黑盒：神经网络学到的知识和人类基本相似！

专知会员服务

35+阅读 · 2021年12月7日

【新书】感知和行动的贝叶斯模型，348页pdf

专知会员服务

75+阅读 · 2021年11月18日

《强化学习导论》经典课程10讲，DeepMind大神David Silver主讲

专知会员服务

86+阅读 · 2021年1月2日

《强化学习》简介小册，24页pdf

专知会员服务

277+阅读 · 2020年4月19日

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

专知会员服务

292+阅读 · 2020年3月10日

【强化学习】深度强化学习初学者指南

专知会员服务

183+阅读 · 2019年12月14日

AI来搞财富分配比人更公平？来自DeepMind的多人博弈游戏研究

量子位

0+阅读 · 2022年7月7日

在虚拟世界里探索，李飞飞的「具身AI」离大脑更接近了

新智元

4+阅读 · 2022年6月29日

人工智能，装在罐子里

学术头条

0+阅读 · 2022年4月13日

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

产业智能官

18+阅读 · 2019年1月1日

一文了解强化学习

AI100

15+阅读 · 2018年8月20日

深度强化学习入门，这一篇就够了！

机器学习算法与Python学习

28+阅读 · 2018年8月17日

论强化学习的根本缺陷

AI科技评论

11+阅读 · 2018年7月24日

“强化学习之父”萨顿：预测学习马上要火，AI将帮我们理解人类意识

量子位

10+阅读 · 2017年12月11日

【强化学习】重磅 | 详解深度强化学习，搭建DQN详细指南

产业智能官

41+阅读 · 2017年8月18日

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

真实和虚拟金钱奖赏下风险决策的神经机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

真实与错误记忆的基因研究

国家自然科学基金

0+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

虚拟现实中的人类路径整合研究

国家自然科学基金

7+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

社会情境影响公平感知和社会决策的认知神经机制

国家自然科学基金

1+阅读 · 2011年12月31日

JNK信号参与成年动物海马SGZ区神经发生机制的研究

国家自然科学基金

0+阅读 · 2010年12月31日

具有模仿与强化学习机制的智能机器人

国家自然科学基金

2+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

工作记忆与情景记忆重复效应的神经机制研究

国家自然科学基金

0+阅读 · 2008年12月31日

Learning to Solve Multiple-TSP with Time Window and Rejections via Deep Reinforcement Learning

Arxiv

0+阅读 · 2022年9月13日

Functional Optimization Reinforcement Learning for Real-Time Bidding

Arxiv

0+阅读 · 2022年9月13日

Deterministic Sequencing of Exploration and Exploitation for Reinforcement Learning

Arxiv

0+阅读 · 2022年9月12日

(Eternal) Vertex Cover Number of Infinite and Finite Grid Graphs

Arxiv

0+阅读 · 2022年9月12日

Bayesian Algorithm Execution for Tuning Particle Accelerator Emittance with Partial Measurements

Arxiv

0+阅读 · 2022年9月10日

Emergent Bartering Behaviour in Multi-Agent Reinforcement Learning

Arxiv

19+阅读 · 2022年5月13日

Causality and Generalizability: Identifiability and Learning Methods

Arxiv

12+阅读 · 2021年10月4日

The Confluence of Networks, Games and Learning

Arxiv

94+阅读 · 2021年5月17日

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

A Deep Reinforcement Learning Chatbot (Short Version)

Arxiv

13+阅读 · 2018年1月20日

VIP会员

强化学习的起源：从老鼠走迷宫到AlphaGo战胜人类

相关内容

知识荟萃

更多