会员服务 ·

李飞飞提出深度进化强化学习新框架：创建具身智能体学会动物进化法则

2021 年 2 月 16 日 新智元

新智元报道

来源：外媒

编辑：Yaxin, LQ

【新智元导读】6亿多年的进化中，动物表现出显著的具身智能，利用进化学习复杂的任务。研究人员称，AI智能体也可以很快学会动物的这种智能行为，但目前推动具身认知面临很多挑战。最近斯坦福李飞飞教授等人的研究「深度进化强化学习」有了突破，首次证明了「鲍德温效应」。

智能体/代理（Agents）是人工智能领域的一个主要研究课题，分为非具身智能和具身智能。

而创建具身智能体是一个非常具有挑战的任务，所以当前人工智能领域更加关注「非具身认知」。

最近，李飞飞和其他几名学者提出了一个新的计算框架——深度进化强化学习——Deep Evolutionary Reinforcement Learning (DERL)，基于该框架，具身智能体可以在多个复杂环境中执行多个任务。

此外，本研究还首次通过「形态学习」（morphological learning）证明了进化生物学中的「鲍德温效应」。

1953年，美国古生物学家George Gaylord Simpson创造了术语「鲍德温效应」，其中提到了美国哲学家和心理学家JM Baldwin的1896年论文中进化的一个新的因素。

在进化生物学中，鲍德温效应提出，在进化过程的早期世代一生中最初学会的行为将逐渐成为本能，甚至可能遗传给后代。

在过去的6亿年里，进化带来了无数形态的美：从古老的两侧对称的昆虫到各种各样的动物形态。

这些动物还表现出显著的具身智能，利用进化学习复杂的任务。

具身认知的研究人员认为，AI智能体可以很快地学会这种智能行为，而且它们的形态也能很好地适应环境。

然而，人工智能领域更注重「非具身认知」，如语言、视觉或游戏。

当AI智能体能够很好地适应环境时，它们就可以在各种复杂环境中学习控制性任务。然而，由于以下原因，创建这样的智能体非常具有挑战性。

这需要在大量潜在模式中进行搜索。通过终身学习评估一个智能体的适应性需要大量的计算时间。

因此，以往的研究要么是在极其有限的形态学搜索空间中使智能体实现进化，要么是在给定的人工设计形态学下寻找最优参数。

评估适应性的困难使得以前的研究避免了直接在原始感官观察的基础上学习自适应控制器;

学习使用少量参数(≤100)手动设计控制器; 学习预测一种形式的适应性;

模仿拉马克进化而不是达尔文进化，直接跨代传递学习的信息。

此外，以前的研究主要局限于在地面上移动的简单任务。

智能体自由度(DoF)比较少，或者由多个立方体构成，这就进一步简化了控制器的学习问题。

三种维度：环境、形态和控制，具身智能体可以执行哪些任务？

斯坦福大学李飞飞和Agrim Gupta，Silvio Savarese，Surya Ganguli研究人员提出的新型计算框架——深度进化强化学习（DERL）可以在环境，形态和控制这三种复杂维度同时扩展创建具身智能体的规模。

DERL为计算机模拟实验中的大规模具身智能体创建活动打开了一扇门，这有助于获得有关学习和进化如何协作以在环境复杂性，形态智能和控制的可学习性之间建立复杂关系的科学见解。

此外，DERL还减少了强化学习的样本低效性的情况。智能体的创建不仅可以使用更少的数据，而且可以泛化和解决各种新任务。

DERL通过模仿达尔文进化论中错综复杂的代际进化过程来搜索形态空间，并通过终生神经学习的智能控制解决复杂任务来评估给定形态的速度和质量。

斯坦福大学教授，论文的作者李飞飞表示，「这项研究不仅提出了一种新的计算框架，即深度进化强化学习（DERL），而且通过形态学习首次证明了达尔文-鲍德温效应。形态学习对于自然界中的动物进化至关重，现已在我们创建的 AI 智能体中展现」。

在这项研究中创建的具身智能体可以平地（FT），多变地形（VT）和多变地形的非抓握操作（MVT）中执行巡视（patrol）、点导航（point navigation）、避障（obstacle）、探索（exploration）、逃脱（escape）、爬坡（incline）、斜坡推箱子（push box incline）和控球（manipulate ball）等任务。