斯坦福华人教授：声波、光波，其实都是RNN！机器学习模型对应物理系统

会员服务 ·

斯坦福华人教授：声波、光波，其实都是RNN！机器学习模型对应物理系统

2020 年 1 月 4 日 新智元

新智元报道

来源：Reddit、Science

编辑：大明、鹏飞

【新智元导读】近日，斯坦福大学华人教授Shanhui Fan团队在Science子刊发文，指出不管是声波、光波还是其他形式的波，其描述方程上都可以和循环神经网络（RNN)等效。这一发现可能为新型模拟机器学习平台的出现铺平了道路。文章作者之一还在Reddit上和网友做了互动。戳右边链接上新智元小程序了解更多！

近来，物理、数学与机器学习领域之间相互交叉，促进了使用机器学习框架来优化物理模型，并进一步促进研究人员开发了许多令人兴奋的新机器学习模型（例如神经ODE，哈密顿神经网络等），它们借鉴了物理学的概念。

来自斯坦福大学Shanhui Fan组的研究员，就对物理学本身可以用作计算引擎的观点特别感兴趣。换句话说，就是对可以用作硬件加速器或用作快速有效的机器学习计算的专用模拟处理器的物理系统感兴趣。

本文通讯作者，斯坦福大学教授Shanhui Fan

在他们最近发表在《Science Advances》上的论文中，证明了波的物理特性能够直接映射到RNN的时间动态中。使用此连接，研究人员证明了可以训练声学/光学系统（通过PyTorch开发的数值模型），从人类说话者的录音中准确地对元音进行分类。本质上是将元音波形启动到物理模型中，并允许优化器在域内各个点的1000处添加和删除材料，本质上充当了模型的权重。

因为此机器学习模型实际上对应于物理系统，所以这意味着可以采用经过训练的材料分布并将其“打印”到实际的物理设备中。结果将类似于ASIC（专用集成电路），但用于特定的RNN计算。

研究人员认为它们指出除了脉冲本身所携带的能量之外，还能够完全被动地执行复杂的循环机器学习计算，而没有能耗。

论文解读：声波、光波都可视作循环神经网络

模拟机器学习硬件平台有望比数字化平台更快，更节能。与数字化模式相比，物理学中的声波和光波是为时变信号构建模拟处理器的自然选择。本文确定了各类波的形式与循环神经网络中的计算之间的映射。该映射表明，可以使用神经网络的标准训练技术来训练物理波系统，学习时间数据中的复杂特征。

逆向设计的不均匀介质可以对原始音频信号进行元音分类，从而达到与循环神经网络的标准数字实现相当的性能。这些发现为新型模拟机器学习平台铺平了道路。

波的动力学与RNN之间的等价关系

RNN通过在输入过程的每个步骤中对输入序列的每个成员应用相同的基本操作，将输入序列转换为输出序列。先前时间步骤的记忆被编码为RNN的隐藏状态，并在每个步骤中进行更新。隐藏状态使RNN可以保留过去的信息，并学习数据中的时间结构和长期依赖关系。在给定的时间步长t处，RNN对序列xt的当前输入向量和上一步ht-1的隐藏状态向量进行运算，以生成输出向量yt以及更新的隐藏向量状态，ht。

尽管RNN有许多形式的变体，一般常见的实现方式可由下列方程描述：

与标准RNN相似，隐藏状态与波的动力学方程的输入和输出之间的连接也由线性算符定义，可以如下方式给出：

输入和输出矩阵定义了空间域内的注入点和测量点。与标准RNN不同，输入和输出矩阵很密集，波动方程的输入和输出矩阵很稀疏，因为它们仅在注入点和测量点处为非零值，而且这些矩阵在训练过程中不会改变。

RNN和波量度系统的概念比较如图1所示：

图1 标准RNN与基于波的物理尺度系统的概念比较

图2 元音识别设置和训练过程示意图

图3 元音识别训练结果

未来：波与RNN概念互联，机器学习新平台大有可为

本文中介绍的基于波原理的RNN具有许多优势，使其成为处理时间编码信息的有希望的接班人。

另外，与常规RNN不同，波动方程强制执行节能约束，能够防止隐藏状态和输出信号范数的无限增长。相比之下，定义标准RNN更新关系的无约束的矩阵会导致梯度消失和梯度爆炸，这正是训练传统RNN时需要防范的重大问题。

本文证明，波的动力学方程在概念上与RNN可以实现等效。这种概念上的互联为新型的模拟硬件平台的诞生提供了机会。这种利用物理学计算的方法可能会催生出用于模拟机器学习设备的新平台，比数字化的同类产品具备更自然，更高效地执行计算任务的潜力。

Q&A环节：作者回应网友疑问和质疑

Reddit网友对此表现出浓厚的兴趣，但也同时对该研究有很多疑惑。OP也非常耐心的做了解答。

问：声学中的非线性是否足够强大到足以使其不只是另一个光荣的线性模型？

答：在我们的方案中，物质响应是为隐藏状态非线性激活函数提供隐藏状态的要素，而检测电路是提供输出非线性的要素。在声学方面，流体存在一些有趣的可能性。例如，已知具有小气泡的液体具有非常强的非线性声学响应。我相信这些效果在医学超声成像中很容易遇到。通常由于线性运算在数字处理器上仍然会非常昂贵，因此拥有一个非常高性能的线性单元（例如在ONN中）仍然具有很多价值。与此相关的是，我们还有另一篇论文提出了基于电光电路的ONN的激活功能。

问：是通过真的某个地方播放并使用探头或扬声器测量声音在介质中的传播方式创建输出的，还是模拟数字环境并使用它创建不同的输出？

答：演示用的数值模拟。在本文精确配置中，麦克风探针或接收器电路还需要执行其记录的一些时间积分，以及不同探针处的时间积分信号之间的一些附加比较逻辑。但方案中大多数分类工作量已被转移到训练介质中波的传播和散射上。

问：你谈了很多物理学，但是本文并未论证正在研究的现象背后的物理学的基本知识。我已经通过3-5个神经元MLP（每个元音）完成了在线元音识别，所以我知道这并不难。

答：重点并不是要说此特定任务对其他模型来说太难了。我们的工作重点是说基于波的物理系统可以成为循环机器学习（也许通常是计算）的引人注目的模拟计算引擎。

问：这很可能会遇到“现实差距”，训练会利用物理模型中存在的，与现实中不同或不存在的现象。当使用如此多的自交互（由于非线性）自由度时，即使是很小的离散误差，各处都可能产生令人惊讶的与现实的差异。

答：我们在离散化误差意义上（理想情况下）收敛的仿真环境中进行操作。这意味着如果我们假设模拟参数（例如波速和非线性材料参数）能够反映现实世界的值，那么模拟应该很好地表示现实情况。我们可能希望改善对结构中最小特征尺寸的约束。我们还需要考虑三维效果（本文中的演示仅为二维）。但是，应该没有根本性的问题去解决这些问题。

问：有趣的研究！你知道这样的方法是否可以达到多少计算能力的上限？

答：这绝对是一个很好的问题，但是很难提供一个封闭形式的答案，这是我们正在积极研究的东西。波动方程具有一些属性，即因果关系和能量守恒，我们可以期望它们会限制系统可以产生的响应形式。

论文地址：

https://advances.sciencemag.org/content/advances/5/12/eaay6946.full.pdf

Reddit讨论：

https://www.reddit.com/r/MachineLearning/comments/ej3bgf/r_acoustic_optical_and_other_types_of_waves_are/

图文直播｜新智元小程序技术公开课第一期！

1月6日晚，16本Phthon系列教材作者董付国将在新智元小程序揭秘「如何编写有“Python味道”的Python代码？」，当天还有机会与大咖在线互动，答疑解惑，现在扫描下方海报二维码可抢占免费预约名额。