蒸汽机为工业革命提供了动力,并永远地改变了制造业——但直到接下来的一个世纪,热力学定律和统计力学原理得到发展,科学家们才能够在理论层面上全面解释蒸汽机为何以及如何工作。
当然,缺乏理论理解并没有阻止人们对蒸汽机的改进,但是热机原理的发现导致了迅速的改进。当科学家们最终掌握了统计力学,其结果远远超出了制造更好、更高效的发动机。统计力学使人们认识到物质是由原子构成的,它预示了量子力学的发展,(如果你从整体上看)甚至使我们看到了为我们今天使用的计算机提供动力的晶体管。
如今,人工智能正处于类似的关头。深度神经网络(DNNs)是现代人工智能研究的一部分,但它们或多或少被视为一个“黑盒子”。尽管人工智能从业者取得了重大进展,但DNN通常被认为过于复杂,无法从基本原理理解。模型在很大程度上是通过反复试验来调整的——虽然反复试验可以通过多年的经验来明智地进行,但却没有任何统一的理论语言来描述DNN及其功能。
《深度学习理论原理:理解神经网络的有效理论方法》的新书出版,该研究由Facebook AI Research的Sho Yaida、麻省理工学院和Salesforce的Dan Roberts以及普林斯顿的Boris Hanin共同完成。作为一个基本的层面,这本书提供了一个从第一原则理解DNNs的理论框架。对于人工智能从业者来说,这种理解可以显著减少训练这些DNN所需的试错次数。例如,它可以揭示任何给定模型的最佳超参数,而不需要经过今天所需要的时间和计算密集的实验。
《深度学习理论原理》将于2022年初由剑桥大学出版社出版,手稿现已公开。斯坦福大学物理学教授伊娃·西尔弗斯坦(Eva Silverstein)说:“这本书提出了一种机器学习理论方法。”看到这些方法在理解和改进人工智能方面取得的进展将是令人兴奋的。
这只是重塑人工智能科学这一更大项目的第一步,这一项目既源自基本原理,同时也专注于描述现实模型的实际工作方式。如果成功,这种深度学习的一般理论可能会使人工智能模型更加强大,甚至可能引导我们建立一个研究通用智能方面的框架。