Bengio、LeCun 等人联名上书，呼吁美国投资神经AI，攻破「具身图灵测试」

会员服务 ·

Bengio、LeCun 等人联名上书，呼吁美国投资神经AI，攻破「具身图灵测试」

2022 年 10 月 23 日 极市平台

↑ 点击蓝字关注极市平台

来源丨机器之心

编辑丨极市平台

极市导读

在这份白皮书中，Bengio、LeCun 等人指出，真正的智能系统应该能通过「具身图灵测试」，而不仅仅是传统的图灵测试，而这要通过加大神经 AI 基础研究的投资来实现。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

「长期以来，神经科学一直是人工智能进步的重要驱动力。我们提议，为了加速人工智能的进展，必须投资于 NeuroAI 的基础研究。」

在近期的一份白皮书中，Bengio、LeCun 等数十位科学家联名上书，呼吁美国政府加大对神经 AI 基础研究的投入。

自第三次人工智能发展浪潮以来，这一领域已经获得了长足的进步。但可以看到的是，目前的人工智能和人类智能之间还有相当的水平差距。为了找到通往「通用人工智能」之路，学界衍生出不同路线的大讨论，神经科学就是其中方向之一。

论文链接：https://arxiv.org/ftp/arxiv/papers/2210/2210.08340.pdf

以下是白皮书的详细内容：

在未来的几十年里，人工智能将以与过去半个世纪的计算机革命一样深刻的方式改变社会和世界经济，而且还可能以更快的速度。这场人工智能革命为在现代经济中人类创造力的释放提供了巨大的机会。人工智能系统的新发展有可能使工人获得更高的生产力，并将他们从最危险和琐碎的工作中解脱出来。但是，为了梦想成真，我们仍然需要取得进展，使人工智能的能力更像人类。从历史上看，神经科学一直是人工智能改进的关键驱动力和灵感来源，特别是那些让人工智能在人类和其他动物擅长的领域更加精通的领域，如视觉、基于奖励的学习、与物理世界的互动和语言。

现在，这种规律仍然可以发挥作用。为了加快人工智能的进展，实现其巨大的潜力，我们必须投资于「NeuroAI」的基础研究。

当前这场人工智能革命的种子，早在几十年前就埋下了，这主要归功于试图了解大脑如何计算的研究人员。催化了最近现代人工智能革命的深度卷积网络是建立在人工神经网络的基础上的，同样，强化学习的发展从对动物行为和学习过程中的神经活动的洞察中获得了直接的灵感。几十年后的今天，人工神经网络和强化学习的应用如此迅速，以至于许多观察者认为，长期以来难以实现的人类水平的智能目标——「通用人工智能」已经在我们掌握之中。然而，与该领域之外的人的乐观态度相反，许多第一线的人工智能研究人员认为，在能够建立类似人类甚至像老鼠这样简单的人工系统之前，我们还需要等待新的重大突破。

虽然人工智能系统可以在国际象棋、围棋等游戏中轻松击败任何人类对手，但它们并不稳健，在面对新的情况时往往会陷入困境。此外，我们还没有建立起能够走到架子旁、取下棋子、摆好棋子并在游戏中移动它们的系统。同样，没有任何机器可以建造巢穴、觅食浆果或照顾幼崽。今天的人工智能系统无法与四岁儿童，甚至简单动物的感觉运动能力竞争。

驾驭新情况所需的许多基本能力——动物拥有或可以轻松获得的能力——对人工智能来说都很有挑战性，因为人工智能系统甚至缺乏与不可预测的世界互动的基本能力。越来越多的人工智能研究者怀疑，仅仅扩大目前的方法能否克服这些限制。鉴于需要在人工智能中实现更多的自然智能，我们很可能需要从自然智能系统中获得新的灵感。

虽然许多关键的人工智能进展，比如卷积神经网络和强化学习，都是受到神经科学的启发，但目前机器学习的许多研究都是在以前开发的方法的基础上走自己的路，这些方法还是受到几十年前的神经科学发现的启发，如基于注意力的神经网络在一定程度 shang 是受到大脑中注意力机制的启发。

来自现代神经科学的新影响不能说完全不存在，但是由少数研究人员带头的。这代表着机会的流失。过去的几十年里，通过 NIH BRAIN 计划等努力，我们积累了大量的关于大脑的知识，这使我们能够大量了解支撑自然智能的解剖学和功能结构。在神经科学和人工智能的交汇处，新兴的 NeuroAI 领域是基于这样一个前提：对神经计算的更好理解将揭示智能的基本成分，并催化人工智能的下一次革命，最终催生具有与人类相匹配甚至超越人类能力的人工智能体。我们相信，现在是进行努力以确定和理解生物智能原则并抽象出这些原则以应用于计算机和机器人系统的时候了。

虽然我们很想把注意力集中在智能行为中最具人类特征的方面，如抽象思维和推理，但智能的基本要素——适应性、灵活性以及从稀疏的观察中做出一般推断的能力，已经以某种形式存在于基本的感觉运动电路中，这些电路已经进化了数亿年。正如人工智能先驱 Hans Moravec 所说，抽象思维「是一种新的技巧，也许只有不到 10 万年的历史，它之所以有效，是因为它得到了这种更古老、更强大（尽管通常是无意识的）的感觉运动知识的支持。」

这是一个好消息，因为它意味着神经科学研究的热门对象——大鼠、小鼠和非人灵长类动物——可以作为自然智能的实验性可操作模型。如果人工智能能够与它们看似简单的感知和运动能力相匹配，那么达到人类水平智能的步骤就会少得多。因此我们相信，如果我们弄清楚所有动物在与世界的具身感觉运动互动中所拥有的核心能力，NeuroAI 的道路将带来必要的进展。

NeuroAI 大挑战：具身的图灵测试

1950 年，艾伦 · 图灵提出了「模仿游戏」，作为对机器表现出与人类相当或无法区分的智能行为能力的测试。在这个被称为图灵测试的游戏中，一个人类法官被要求评估一个真正的人和一个被训练成模仿人类反应的机器之间的自然语言对话。图灵提出，在无法具体说明机器是否能够「思考」（他认为这是一个不可能回答的问题）的情况下，我们可以确定机器的对话能力是否与人类的对话能力没有区别。他认为，这是对「机器能否思考」这个无法回答的问题的合理替代。图灵测试中隐含的信念是，语言代表了人类智慧的巅峰，能够对话的机器肯定是智能的。

在某种程度上，图灵是对的，但在另一个方面他却错了。虽然没有一个人工智能系统通过了图灵测试，但最近纯粹在大型文本语料库上训练的语言系统已经可以进行令人惊讶的有说服力的对话。这种成功在一定程度上揭示了我们是多么容易被欺骗，将智慧、能动性甚至意识归于对话者。另一个原因是，这些系统在某些推理任务上仍然很差劲。

尽管这些最近的成功令人印象深刻，但它们的失败也体现出图灵忽略了一个事实，即智能远非语言能力所能代表的。目前的自然语言处理系统所犯的许多错误都说明了语义学、因果推理和常识的根本缺乏。词语对于这些模型来说，只因其统计学上的共同出现而具有意义，而不是以现实世界的经验为基础。因此，即使最先进的语言模型（尽管它们的能力不断增强）也仍然折戟于物理常识的一些基本方面。因此，最初制定的图灵测试并没有探究与动物共享的、以灵活方式理解物理世界的能力。此外，这种理解可能是建立在我们惊人的感知和运动能力之上的，这些能力是通过无数代的自然选择磨练出来的。

因此，我们提出了一个延伸版的图灵测试，一个包括高级感觉运动能力的测试。最初的图灵测试的精神是建立一个简单的定性标准，根据这个标准可以判断我们在建立人工智能机器方面的进展。一个延伸版的「具身图灵测试」将为人工系统与人类和其他动物的互动提供基准和比较。因为每一种动物都有自己独特的能力，所以每一种动物都定义了自己的具身图灵测试：「人工海狸」可能会被测试其筑坝的能力，而「人工松鼠」则被测试其在树间跳跃的能力。尽管如此，许多核心的感觉运动能力几乎是所有动物所共有的，而动物迅速进化适应新环境所需的感觉运动技能的能力表明，这些核心技能提供了一个坚实的基础。下面我们强调其中的几个共同特征。

与世界互动。动物的决定性特征是它们能够以有目的的方式四处移动并与环境互动。尽管最近在优化控制、强化学习和模仿学习方面取得了进展，但机器人技术在控制身体和操纵物体方面仍远未达到动物级别的能力，即使是在模拟环境之中。当然，神经科学可以提供关于模块化和分层架构的指导，这些架构可以适用于人工系统，使其具有这些能力。它还可以提供设计原则，如部分自主性（层次结构中的低级模块如何在没有高级模块输入的情况下半自主地行动）和摊销控制（起初由缓慢的规划过程产生的运动如何最终转移到快速的反射系统）。了解特定的神经回路如何参与不同的任务——比如运动，对四肢、手和手指的精细控制，感知以及行动选择——可能为这些系统如何在机器人中实现提供路径，也可能为其他形式的「智能」提供解决方案，包括在更多的认知领域。例如，我们推测，纳入低级运动控制的电路原理有助于为人工智能系统的高级运动规划提供更好的基础。

动物行为的灵活性。另一个目标是开发人工智能系统，使其能够参与大量灵活多样的任务，以呼应个体动物所能产生的令人难以置信的行为范围。现代人工智能可以很容易地学会在视频游戏中胜过人类，且只需要用屏幕上的像素和游戏分数。然而，这些系统与人类玩家不同，它们是脆弱的，会对小的扰动高度敏感：稍微改变游戏规则，甚至是输入的几个像素，都会导致灾难性的糟糕表现。这是因为这些系统学习了一种从像素到行动的映射，而这种映射不需要涉及对游戏中的智能体和物体以及支配它们的物理学的理解。

同样地，自动驾驶汽车本身并不了解前方卡车上的箱子掉下来的危险，除非它真的见过箱子从卡车上掉下来导致坏结果的例子。即使它接受过关于板条箱坠落危险的训练，系统也可能认为一个空塑料袋被吹出它前面的汽车是一个要不惜一切代价避免的障碍，这也是因为它实际上并不了解塑料袋是什么，或者它在物理上有多大的威胁。这种无法处理训练数据中没有出现过的场景的情况是对广泛依赖的人工智能系统的一个重大挑战。

为了在一个不可预测和不断变化的世界中取得成功，智能体必须具有灵活性，并通过利用通用知识来掌握新的情况。可以说，这正是动物所做的。由于动物在现实世界的互动中打下了坚实的基础，在进化和发展的帮助下，它们生来就具备茁壮成长所需的大部分技能，或者可以从有限的经验中迅速获得这些技能。因此，很明显，为一项特定任务从头开始训练并不是动物获得技能的方式；动物并不是来到这个世界上的「白板」，然后依靠大型标签训练集来学习。

尽管机器学习领域一直在寻求避开这种「白板」限制的方法，包括自监督学习、迁移学习、持续学习、元学习、one-shot 学习和模仿学习，但这些方法都没有接近实现在大多数动物身上发现的灵活性。因此，我们认为，了解为现实世界中的行为灵活性提供基础的神经电路级原理，即使是那些简单的动物，也有可能大大增加人工智能系统的灵活性和效率。换句话说，我们可以通过利用进化已经参与的优化过程，大大加快我们对现实世界互动的通用电路的搜索。

能源效率。现代人工智能的一个重要挑战是能源效率，而我们的大脑已经克服了这个挑战。训练一个神经网络需要大量的能源。例如，训练大型语言模型 GPT-3 需要超过 1000 兆瓦时，足以为一个小镇提供一天的电力。用来训练人工智能系统的能源总量很大，而且增长迅速。相比之下，生物系统的能源效率要高得多。人脑的能源消耗大约是 20 瓦特。

大脑和计算机之间能量需求的差异来自于信息处理的差异。

首先，在算法层面上，现代大规模的 ANN 依靠非常大的前馈架构，用自注意力来处理时间序列，忽略了处理序列信息的递归的潜在力量。其中一个原因是，目前我们没有高效的机制在递归网络中进行信用分配计算。相比之下，大脑利用灵活的递归架构来处理随时间变化的序列，显然可以非常高效地解决时间性的信用分配问题，甚至比目前 ANN 中使用的前馈信用分配机制更高效。如果我们能够利用大脑来指导如何为递归电路设计有效的训练机制，那么我们就有可能提高我们处理序列数据的能力，同时进一步提高我们系统的能源效率。

其次，在执行层面上，生物神经元主要通过传输动作电位（脉冲）进行互动，这是一种异步通信协议。与传统数字元素之间的互动一样，神经元的输出可以被看作是一串 0 和 1；但与数字计算机不同，「1」（即脉冲）的能量成本比「0」高几个数量级。由于生物电路是在脉冲稀疏的状态下运行的，即使是非常活跃的神经元也很少超过 10% 的占空比，而且大多数神经元的运行速度要低得多，因此它们的能源效率要高得多。

此外，其他因素可能有助于提高生物网络的能源效率。例如，即使一些组件非常不可靠或「嘈杂」，生物网络也能高效计算。神经元交流的手段——突触释放可能非常不可靠，以至于每 10 条信息中只有 1 条被传输。电路的组织方式使得脉冲序列也是高度可变的，这一特点可能允许神经电路进行概率推理，这是一种在不确定情况下的稳健计算形式。虽然目前正在努力利用脉冲网络的潜力，但迄今为止，还没有出现这些网络能够以生物电路的能源效率执行的「杀手级应用」。可以说，主要问题是目前的「神经形态芯片」既没有复制先天的神经回路功能，也不容易训练。尽管它们更节能，但远不如其能源高消耗的数字产品有用。

因此我们认为，在人工智能中获得更高的能源效率，不仅可以通过借鉴稀疏脉冲网络的理念，还可以通过提供具有先天神经回路功能和学习规则的神经形态芯片来实现。

解决具身图灵测试问题的路线图

通过具身图灵测试的人工系统会如何发展？一个自然的方法是在我们进化史的指引下，循序渐进地发展。例如，几乎所有的动物都参与目标导向的运动；它们会向一些刺激（如食物来源）移动，远离其他刺激（如威胁）。这些基础能力之上还有更复杂的技能，例如组合不同的感官信息流（如视觉和嗅觉）的能力，使用这些感官信息来区分食物来源和威胁，导航到以前的位置，权衡可能的奖励和威胁以实现目标，以及以精确的方式与世界互动以服务于这些目标等。在某种程度上，这些复杂能力中的大部分甚至在非常简单的生物体中也能找到，比如蠕虫。而在鱼类、哺乳类等更复杂的动物中，这些能力得到了充分发展，并与新的策略相结合，以实现更强大的行为策略。

这种进化的观点提出了一种解决具身图灵测试问题的策略，即将其分解为一系列建立在彼此之上的增量挑战，并在这个系列上迭代优化。此外，代表低、中级挑战解决方案的生物体可以包括蠕虫、苍蝇、鱼、啮齿动物和灵长类动物，它们是神经科学研究中广泛使用的系统。我们之前已经在它们行为的电路和机制方面积累了大量知识。这项研究大部分可以在计算机上进行，使用虚拟环境和虚拟动物。为了达到所需的行为灵活性水平，通过具身图灵测试的人工系统将受到一系列物种特定测试的挑战，这些测试用于探索自监督学习、持续学习、迁移学习、元学习和终身记忆。这些挑战可以标准化，以便量化进展。最终，成功的虚拟有机体可以借助机器人技术适应现实世界，并用于解决现实世界的问题。

What we need

实现这些目标需要大量资源，也需要传统人工智能和神经科学以外的许多学科的贡献，包括心理学、工程学、语言学等。除了简单地利用这些领域的现有专业知识，我们的当务之急是培训新一代精通工程 / 计算科学和神经科学的人工智能研究人员。这些研究人员将借鉴神经科学几十年来的进展，为人工智能研究制定全新的方向。

要实现这一想法，最大的挑战将是如何利用神经科学、计算科学和其他相关领域的协同和交叉来推进我们的探索，即确定在人工智能的应用中，大脑回路、生物物理学和化学的哪些细节是重要的，哪些细节是可以忽略的。

因此，在不同领域接受过适当培训的研究人员迫切需要将神经科学知识抽象出来，使其适用于计算机领域，并帮助设计实验，以产生与人工智能相关的新的神经生物学见解。该研究项目成功的关键在于，我们要推动一个群体的形成，这个群体包含很多精通神经科学和人工智能领域的研究人员。此外，新训练项目的明确设计可以确保 NeuroAI 研究团体反映整个社会的人口统计数据。

其次，我们需要创建一个能够开发和测试这些虚拟智能体的共享平台。我们在创建一个迭代的、具身化的图灵测试和进化中的人工有机体时将面临的最大技术挑战之一是所需的计算能力。目前，在专门的分布式硬件上，训练一个大的神经网络模型来完成一个具身的任务（例如在三维空间中控制一个身体）可能需要几天的时间。

为了让多个研究小组一起在越来越复杂的具身化图灵任务中通过多代迭代工作来优化和评估大量智能体，我们需要在共享计算平台上进行大量投资。就像物理学中的粒子加速器或天文学中的大型望远镜一样，这种大规模共享资源对于推动大脑启发的人工智能研究至关重要。这将需要一种重要的集体努力，包括政府的支持，最好也有行业的支持，其核心目标是实现动物和类人智能方面的科学进步。

第三，我们需要支持神经计算的基础理论和实验研究。在过去的几十年里，通过美国国立卫生研究院（NIH）的努力，我们已经对大脑有了大量的了解，这在很大程度上要归功于 BRAIN 计划和其他主要资助者。我们现在正在理解大脑个体细胞成分、神经元的多样性，以及它们如何作为简单回路的一部分发挥作用。有了这些基础，我们就可以将注意力转移到理解大脑是如何作为一个综合智能系统来运作的。这需要我们洞察一千种不同类型的一千亿个神经元是如何连接到一起的（每一个神经元都通过可变的、可适应的连接与数千个其他神经元进行通信），以及由此产生的计算能力——智能。

我们必须对大脑进行逆向工程，以抽象出潜在的原理。请注意，虚拟智能体的开发本身将极大地加速这一努力，因为它允许在真实动物和「计算机模拟」的动物实验之间进行直接比较，这一努力将提供对稳健控制、灵活行为、能效和智能行为至关重要的神经回路级属性和机制的见解。要想利用神经科学和人工智能之间的强大协同作用，我们需要提供计划和基础设施支持，以组织和实现大规模的跨学科研究。

幸运的是，华盛顿的两党已经达成共识：针对人工智能研究的投资对美国的技术前景至关重要。连接神经科学和人工智能领域的全社区努力将需要联邦资源的强有力投资，以及对项目里程碑、商业化支持、伦理和创新想法的押注。目前我们已经有了一些联邦资源，如国家科学基金会的国家人工智能研究所明确致力于从神经科学研究中推动人工智能的创新和发现，但这些主要是为了支持传统的学术模式，由不同的小组研究不同的问题，而不是创建一股集中的力量来创建类似于具身图灵测试的东西。同样，人工智能支持款项主要是通过 NIH、NSF、DoD 甚至 EPA 的辅助项目来获取——每一个都有自己的指令和目标。这就给技术发展本身留下了巨大的资金缺口。通过现有的实体或作为一个独立的机构来创建总体指令，以支持 NeuroAI 和人工智能研究将推动这一使命，巩固美国政府作为人工智能研发的国际领导者的地位。

公众号后台回复“1024”参与程序员节666元现金红包抽奖～

△点击卡片关注极市平台，获取最新CV干货

极市干货

算法竞赛：往届获奖方案总结以及经验详解｜ACCV2022国际细粒度图像分析挑战赛

技术综述： BEV 学术界和工业界方案、优化方法与tricks综述 ｜ PyTorch下的可视化工具（网络结构/训练过程可视化）

极视角动态：极视角与华为联合发布基于昇腾AI的「AICE赋能行业解决方案」｜算法误报怎么办？自训练工具使得算法迭代效率提升50%！

# CV技术社群邀请函 #

△长按添加极市小助手

添加极市小助手微信（ID : cvmart2）

备注：姓名-学校/公司-研究方向-城市（如：小极-北大-目标检测-深圳）

即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群

极市&深大CV技术交流群已创建，欢迎深大校友加入，在群内自由交流学术心得，分享学术讯息，共建良好的技术交流氛围。

“

点击阅读原文进入CV社区

收获更多技术干货

登录查看更多

相关内容

图灵测试

关注 2

图灵测试（英语：Turing test，又译图灵试验）是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验，测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道，例如计算机键盘和屏幕，这样的结果是不依赖于计算机把单词转换为音频的能力。 Source: 图灵测试