通过分析上述的模式识别的方法,我们可以简单推出,神经网络之所以在解决数学问题方面止步不前,主要障碍来源于数学问题的本质—— 数学需要的是精确的答案,而神经网络对信息的处理方面更擅长的是概率。
他们往往在给定的大量数据下进行模式识别——比如说在翻译时,在给定的多种的可能的翻译结果中,辨别哪种翻译的更接地气;或者在给定的不同的照片中,标记出人脸,对比相似度,圈出出现概率高的面孔——并根据这些高概率出现的结果,汇总出最有可能出现的模式,并将这种模式定义为新的模式。以其高概率出现的可能性,来进行对未来事件的可能预测。
解决数学问题的新途径——语言翻译
值得一提的是,他们的方法并不涉及数字运算或数值近似。相反,他们将复杂的数学运算问题重新编排,变成了神经网络的拿手好戏: 语言翻译。
传统的计算机是非常善于处理数字的。计算机的代数系统,就是将数十种或数百种算法与预置指令生硬地捆绑在一起,而计算机则是按部就班地按照指令进行运算,执行预设好的特定操作。一旦出现背离程序的操作,计算机就只能缴械投降。但对于许多符号问题,它们产生的数值解与工程和物理的实际应用非常接近。
而神经网络则截然不同,他们没有固定的规则。相反,他们可以训练大规模的数据集——越大越好——并利用训练得到的统计数据,对数值解进行很好的近似。在这个过程中,他们学习的是什么方法,什么模式能产生最完美的结果。
这在语言翻译方面表现的尤为出色:在训练过后,他们并不再是逐字逐句地翻译,而是能够协调地翻译文本中的短语。Facebook 的研究人员认为神经网络这种特性是解决象征性数学问题的一个优势,而并不是障碍。它赋予了程序一种解决问题的自由,不同于传统计算机的刻板。
而这种自由对于某些开放性的问题特别有用,比如积分问题。数学家中有句老话:“微分是门技术,而积分是门艺术”。换句话说,求函数的导数只需遵循一些定义明确的步骤;但是求积分通常需要一些别的东西,在判断积分方法以及寻找积分项时,它更需要一些接近人的直觉而不仅仅是计算的东西。
Facebook 的研究小组认为,这种直觉可以通过 AI 的模式识别模拟。“积分是数学中最类似于模式识别的问题之一,”Charton 表示。因此,即使神经网络可能不知道函数是什么或变量是什么意思,它们也会根据大量数据训练发展出一种本能,即神经网络也会开始感觉怎么样计算可以得到答案。
为了让神经网络像数学家一样处理数学符号,Charton 和 Lample 首先将数学表达式翻译成更有用的形式。通过“翻译”, 他们将复杂的数学表达式最终翻译成神经网络可以识别的有效的简化形式——树状图,来总括表达式里的运算符号和数字。
其中,运算符号例如加减乘除成为了树状图的枝,而表达式里的参数(变量和数字) 则变成了叶子。通过转化成树状图, 这能让复杂的数学表达式转化成树状图层层嵌套的简单运算中,从而可以让神经网络识别和运算想应的简化式子,并得到最终的精确结果。
Lample 表示,这个过程与人们解决积分问题,甚至是所有数学问题的过程大体类似。都是通过在复杂数学表达式中,根据经验将他们简化为神经网络以前解决过的子问题。
新型模式初探的局限性和展望
尽管得出了这些结果,Mathematica 开发公司 Wolfram 的负责人,数学家罗杰·格蒙森(Roger Germundsson)还是提出了异议,他表示,实验中只是拿了 Mathematica 的部分功能和神经网络作了简单粗暴的比较。这种比较局限于 Mathematica 特定的指令,比如“integrate”指令被用于求取积分,“DSolve”指令被用于解决微分方程——但事实上,Mathematica 用户还可以使用其他上百种的方法和指令去解决一个较为复杂的方程。
Germundsson 还注意到,尽管实验中所给的训练数据集非常庞大,但是所包含的方程都只有一个单一的变量,并且只是设计初等函数的运算。“这种方程在可能涉及到的方程运算中只能占到极小的部分,”他说。这个神经网络没有测试物理和金融中经常使用的更复杂的函数,比如误差函数或贝塞尔函数。(对此,Facebook 团队表示,在之后的测试中,可能只需要在训练神经网络时,给训练集做几次非常简单的修改。)
加州大学圣巴巴拉分校(University of California, Santa Barbara)的数学家弗雷德里克·吉布(Frederic Gibou)研究过用神经网络求解偏微分方程的方法,他并不认为 Facebook 小组的神经网络是绝对可靠的。“研究人员需要有信心,如果神经网络可靠,它就可以解决任何形式的方程。”
也有其他批评者指出,Facebook 小组的神经网络并没有真正理解数学,这更像是一种特别的猜想,而非实际的解决方法。
尽管如此,反对者还是承认新方法是有用的。Germundsson 和 Gibou 相信神经网络将在下一代符号数学求解工具中占有一席之地——但它也可能只是一席之地而已。“我认为它将只是众多工具中的一个,”Germundsson 表示。
另一个尚未解决的问题是:没有人真正了解它们是如何工作的,这也是神经网络发展最令人不安的一方面。
在模式识别中,我们只需要将训练数据集在一段输入,相应的预测数据集就会在另一端输出,但是并没有人知道这中间发生了什么,让神经网络成为了一个完美的学习者。它理解输入的公式和算法吗?还是只是按部就班的按照指令处理数字?
对此,Charton 表示:“我们知道数学是如何工作的,通过使用特定的数学问题作为测试,看看神经网络在哪里成功,在哪里失败,我们就可以了解神经网络是如何工作的。”
他和 Lample 计划将数学表达式输入到他们的神经网络中,并跟踪程序对表达式中的微小变化的响应方式。映射输入中的变化如何触发输出中的变化,可能有助于揭示神经网络的操作方式。
Zaremba 认为这是在测试和确定神经网络是否具有理性,以及是否真正理解它们所回答的问题上的积极探索。“数学问题中很容易变换参数或者其它部分——我们可以通过观察神经网络在面对改动后的方程后作出的反应来窥测它的运行方式。我们可能会真正了解其中的原因,而不仅仅只是方程的解。”
神经网络探索的另一个可能的方向,是自动定理生成器的开发。数学家们正越来越多地研究使用人工智能来生成新的定理和证明的方法,尽管“这种技术还没有取得很大进展,”Lample 说,“这是我们正在研究的东西。”
Charton 描述了他们的方法至少有两种方法可以推动人工智能定理的发现。首先,它可以作为一种数学家的助手,通过识别已知猜想的模式来帮助解决存在的问题;其次,这台机器可能会生成一个列表,列出数学家们漏掉的可能可证明的结果。“我们相信,如果你能做集成,你就应该能做证明。”他说。
参考资料:
Ornes, S. (n.d.). Symbolic Mathematics Finally Yields to Neural Networks. Quanta Magazine. Retrieved May 27, 2020, from https://www.quantamagazine.org/symbolic-mathematics-finally-yields-to-neural-networks-20200520/
模式识别. (n.d.). 边肇祺、张学工编著. 模式识别(第二版). 清华大学出版社, 2004. Retrieved May 27, 2020, from http://www.intsci.ac.cn/ai/pr.html