类脑超大规模深度神经网络系统

2022 年 1 月 21 日 专知

大规模神经网络展现出强大的端到端表示能力和非线性函数的无限逼近能力，在多个领域表现出优异的性能，成为一个重要的发展方向.如自然语言处理（NLP）模型GPT，经过几年的发展，目前拥有1750亿网络参数，在多个NLP基准上到达最先进性能.然而，按照现有的神经网络组织方式，目前的大规模神经网络难以到达人脑生物神经网络连接的规模.同时，现有大规模神经网络在多通道协同处理、知识存储和迁移、持续学习方面表现不佳.本文提出构建一种启发于人脑功能机制的大规模神经网络模型.该模型以脑区划分和脑区功能机制为启发，集成大量现有数据和预训练模型，借鉴脑功能分区来模块化构建大规模神经网络模型，并由脑功能机制提出相应的学习算法，根据场景输入和目标，自动构建神经网络通路，设计神经网络模型来获得输出.该神经网络模型关注输入到输出空间的关系构建，通过不断学习提升模型的关系映射能力，目标在于让该模型具备多通道协同处理能力，实现知识存储和持续学习，向通用人工智能迈进.整个模型和所有数据、类脑功能区使用数据库系统进行管理，该系统了还集成了分布式神经网络训练算法，为实现超大规模神经网络的高效训练提供支撑.论文提出了一种迈向通用人工智能的思路，并在多个不同模态任务验证该模型的可行性.

http://www.jos.org.cn/jos/article/abstract/6470

深度神经网络已经在多个领域广泛应用,例如:计算机视觉[1,2] ,自然语音处理[3,4] ,目标检测等,并取得了领人瞩目的成绩.为了提高神经网络在特定应用场景下的性能和泛化能力,扩大神经网络参数规模和训练数据集是一种有效的方法.例如:OpenAI 在 2019 年发布了通用语言模型 GPT2,能够生成连贯的文本段落,在多个语言建模基准上取得了 SOTA 性能.该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍.随后,OpenAI 在 2020 年提出了具有 1750 亿个参数的自然语言深度学习模型 GPT3[5] ,该模型经过了将近 0.5 万亿个单词的预训练,并且在不进行微调的情况下,可以在多个 NLP 基准上达到最先进的性能.此外,BigGan[6]、Bert[7]等最新成果表明,神经网络模型越大,任务处理表现就越好.该结论在视觉识别任务也中得到了验证,实验[8]表明神经网络规模大小与识别精度之间存在很强的关联性.大规模神经网络展现出强大的端到端表示能力和非线性函数的无限逼近能力,在多个领域表现出优异的性能,成为一个重要的发展方向.

人工神经网络构建过程受人脑神经元工作原理启发,一直以来研究者都在尝试构建复杂神经网络模型模仿大脑功能.但人脑大约 1000 亿个神经元,每个神经元通过数千甚至上万个神经突触和其他神经元相连接, 整个生物神经网络拥有约 100 万亿连接[9] ,人脑生物神经网络的复杂程度远超目前的人工神经网络模型.按照目前神经网络的组织方式难以到达人脑生物神经网络连接的规模.同时,现有的大规模网络在多通道协同处理、持续学习、知识存储和迁移方面表现不佳.此外,大规模神经网络的训练需要消耗巨大的计算资源和时间.例如,GPT3[5]存储需求高达 350GB,单次训练成本超过 1200 万美元,这在很大程度上限制了大规模神经网络的推广和应用.大规模神经网络模型需要一种新的组织方式以实现自身的高效训练和灵活使用.

现有大规模神经网络模型往往是针对特定任务精心设计.由于特定任务确定了输入和输出空间的边界,任务相关的大规模输入数据为大规模神经网络学习提供了条件,使得大规模神经网络展现出强大的端到端表示能力和非线性函数的无限逼近能力[10] .但当输入和输出空间的边界不确定,或者输入空间发生变化,人工神经网络模型往往难以适应,表现出较低的迁移性,无法直接迁移到不同任务中并取得较好的结果.同时,与大脑学习机制不同,神经网络不具有持续学习能力.当任务发生变化,输入输出空间的相关关系随之改变,神经网络难以持续学习更新已学习到的空间映射应对任务变化.特定的任务,确定的输入输出空间边界,往往造成神经网络映射的鲁棒性不佳.当前,神经网络如何存储知识是存在争议的, 神经网络映射能否实现知识迁移,怎么样去实现, 还在探索之中.人脑生物神经网络的复杂性使得大规模神经网络模型设计存在瓶颈,需要一种新的类脑机制指导大规模神经网络设计和学习.

本文提出一种启发于脑功能机制的超大规模深度神经网络模型.该模型以脑功能和神经网络研究为基础,集成海量数据集和预训练模型,借鉴类脑功能的协同机制,利用模型设计组件,完成针对不同任务场景的神经网络模型设计.该神经网络模型关注如何构建输入与输出的映射关系,而不是神经网络连接细节,目标在于使神经网络模型具备多通道协同处理能力、提升输入输出关系的映射能力,实现知识存储,让模型具备可持续学习能力应对任务的变化.具体研究内容包括:(1)基于人脑功能研究成果,研究如何基于大脑功能机制构建类脑神经网络功能区(以下简称:类脑功能区).(2)构建类脑功能区,设计数据库系统,实现类脑功能区灵活管理.(3)基于脑功能协同工作机制研究模型设计组件平台,完成针对特定场景的神经网络模型设计.构建分布式训练组件提供算法和分布式训练支持.(4)完成超大规模神经网络模型构建,研究从场景输入到构建神经网络模型作为输出的通路,并在多个不同模态任务进行可行性验证.整个类脑大规模神经网络系统集成了海量数据、知识、算法和算力,启发于大脑功能和协同工作机制,集成了有监督、半监督、无监督的学习算法,直接用于构建单模态或者多模态神经网络模型,旨在缩小数据特征空间学习和语义推理之间的差距,向通用人工智能迈进.