大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出

2022 年 4 月 1 日 学术头条

导读:随着以深度学习为代表的AI技术的快速发展,智能模型的训练应用模式逐渐由“大炼模型”向“炼大模型”转变。过去,人们根据不同的任务,利用特定的标注数据训练大量领域专用的模型进行应用,而当下,大规模预训练模型使得微调单一模型应用于多个下游任务成为可能。因此,利用大量无监督数据训练更加通用的大模型成为了热门的研究方向。

大模型研究在近年来发展迅速,模型的参数量以惊人的速度扩展,从GPT-3模型的1750亿到智源悟道模型的1.75万亿,实现模型参数量量级的跃进仅仅用了1年时间。一些研究已经发现大模型参数的不断增长使得模型的性能获得了提升,然而,持续增长的训练负担和不断产生的新问题也引发了学术界的思考:大模型未来该向什么方向发展?有哪些大模型相关的技术需要进一步探索?

为此,北京智源人工智能研究院在大模型逐渐发展成为AI基础设施的重要里程碑之际,联合悟道核心团队和众多中国大模型领域前沿研究学者,给出大模型技术路线导引,讨论未来发展方向。

《A Roadmap for Big Model》由悟道大模型研究项目负责人,智源学术副院长,清华大学计算机系教授唐杰牵头,从大模型基础资源、大模型构建、大模型关键技术与大模型应用探索4个层面出发,对15个具体领域的16个相关主题进行全面介绍和探讨。下图给出了文章的整体框架结构和15个领域的具体内容。其中,资源层的计算系统领域中,除了对系统本身的介绍外,还包括了独立的并行计算章节,因此总计形成了16个主题。下面,我们将对文章的每个主题内容进行简要的介绍和概括。(点击阅读原文即可下载查看报告)


文章《A Roadmap for Big Model》整体框架图

  • 知识
知识是指现实世界中存在的大量事实,在计算机科学中通常以知识图谱的形式进行表示和存储。许多研究发现,缺乏基本的知识和常识仍是目前大模型面临的重要问题之一。因此,越来越多的研究工作尝试将大模型与知识相结合。该章节从知识的基本定义、类别和整合技术开始介绍,推进到知识与大模型相结合的研究工作,包括利用大模型进行知识获取和利用知识增强大模型,最终给出了大模型在知识方向上的未来发展见解。该方向牵头学者如下:

  • 数据
数据是人工智能的三大基本要素之一,也是大模型的学习来源,在大模型训练过程中扮演着“学习资料”的角色。因此,数据集的规模和质量与训练得到的模型性能有着密不可分的关系。该章节主要总结了现有的大模型数据集建设情况,介绍了如何构建高质量的数据集,归纳了当前数据集中一些常见的偏置与伦理问题,并最终提出了一些大模型相关的数据集研究方向。该方向牵头学者如下:

  • 计算系统
随着人工智能领域的高速发展,包括大模型在内的智能模型复杂度和深度越来越高,模型的训练推理对GPU计算能力的需求也在不断增加,越来越多的大规模计算集群和超算系统被构建出来用于提供算力支撑。该章节介绍了当前存在的大规模计算系统,并给出了它们支持大模型训练的实例。随后,章节对于计算系统背后的软硬件发展情况,进行了详细介绍。最后根据当前计算系统中的局限性,对未来的计算系统进行了展望。该方向牵头学者如下:

  • 并行计算
大模型参数量的迅速扩张使得算力需求大幅增加,对底层的计算系统提出了严峻挑战,除了堆积算力资源和提升单块GPU计算性能的方法外,采用并行计算的模式进行模型训练,分散算力支撑压力,也是一个潜在的解决方案。该章节首先从不同角度对计算系统的发展历程进行回顾,随后从技术角度介绍了多种不同的并行加速模式,并最终提出了计算系统相关的未来发展方向建议。该方向牵头学者如下:


  • 语言模型
语言是人类在对话、写作和其他场景中传达自己思想和感受的载体。自然语言处理的目标是跨越人类语言和计算机语言间的鸿沟,尝试让计算机理解人类语言和世界之间的关系。因此,语言大模型是建模语义信息的一类重要模型。该章节首先回顾了语言模型发展历程,介绍了一系列不同的语言模型建模范式。随后,给出了基于语言模型的一些常见下游任务。最后,该章节总结了语言大模型的新兴研究方向。该方向牵头学者如下:

  • 视觉模型
视觉作为智能体感知世界的一项重要能力,是智能模型建模的重要目标之一。设计精巧的视觉大模型能够感知视觉并处理各种下游任务,正在为现代信息社会的许多方面带来前所未有的革命。该章节首先简要介绍了视觉大模型的基础架构——深度卷积神经网络,随后依据监督程度的不同对模型进行了分类介绍。接下来,章节给出了基于视觉大模型的一些下游任务应用,并在最后给出了未来发展方向的见解。该方向牵头学者如下:


  • 多模态模型
人脑是一个复杂的智能系统,可以处理来自多种感官的信息,包括语言、图像、视频、音频等多个模态,从而帮助人类更准确有效地完成理解和决策任务。为了模仿人类的这些核心能力,探索多模态大模型的构建是非常有必要的。该章节首先介绍了多模态大模型如何处理不同模态的数据,随后对现有模型进行了归纳。接下来,文章罗列了一系列用于多模态预训练的任务和多模态大模型应用的下游任务,并在最后提出了一些有价值的研究方向。该方向牵头学者如下:

  • 常识推理
以深度学习为代表的人工智能技术已经基本实现了视觉、听觉等感知智能,但在思维、推理等认知智能的建模中,仍然面临着不小的困难。这是因为人类可以通过推理路径和节点来理解整个推理过程,但目前的深度学习算法将解决大多数问题视为一个黑盒模型。该章节以常识推理为例,介绍了常识推理的基本概念,包括常识推理的定义、方法和基准,并在最后给出了未来这一方向上的研究重点。该方向牵头学者如下:

  • 理论和可解释性
近年来,大模型的研究取得了巨大的成果,但大多数成就都是以实践试错模式取得的,缺乏坚实的理论基础和可解释性。对理论和可解释性的研究可以为大型模型需要什么以及如何改进提供证据和支撑,值得进一步探索。该章节首先介绍了大模型背后最基础的数学理论,随后归纳总结了在大模型可解释性方向上的研究成果,最后从理论研究与可解释性研究两个方向上分别提出了未来研究方向建议。该方向牵头学者如下:

  • 可靠性和安全性
包括大模型在内的人工智能技术正以前所未有的水平从研究实验室走向我们的日常生活,例如人脸识别、个人信息检索等等。然而,如果不考虑人工智能的技术安全性和可靠性,其进展可能受到阻碍,甚至会带来负面影响。该章节归纳了目前大模型相关领域存在的可靠性和安全性问题,对对抗攻击和数据投毒两种攻击方式和相应预防措施进行了介绍,并在最后提出了提升大模型可靠性和安全性的研究方向。该方向牵头学者如下:


  • 治理
大模型及其相关技术的快速发展是一把“双刃剑”,它为人工智能的研究和应用带来了积极推动作用的同时,也带来了一些潜在的问题,例如隐私泄露和不公平的模型输出。这意味着通过大模型治理来平衡技术快速发展和技术安全很有必要。该章节首先介绍了大模型治理的基本概念和目标,随后总结了模型治理这一方向上已有的工作成果。最后,该章节从全局角度和具体目标角度给出了一些开放问题以供思考。该方向牵头学者如下:

  • 评估
随着大模型数量的不断增加,提出公平的评测体系对大模型的性能、效率等方面进行评估变得越来越重要。有效的模型评测不仅能够帮助不同模型间进行公平比较,还可以协助模型算法的迭代改进,促进大模型的进步发展。该章节首先罗列了大模型效果评测和效率评测两方面的基准数据集,并对应提出了其中存在的问题,最后,针对提出的问题,该章节提出了解决的方案和未来的研究方向。该方向牵头学者如下:

  • 对话
人工智能的一个长期目标是建立智能的开放域对话系统,该系统可以与人类进行连贯且有吸引力的对话。尽管该方向的学术研究已经持续了很长一段时间,但开放域对话系统的构建仍然是一项极具挑战性的任务。该章节主要介绍了利用大模型进行对话方向研究的相关工作,包括已有的对话大模型构建成果和基于大模型的对话系统研究中主要面临的学术难题。该章节在最后也对对话大模型研究的挑战和未来方向进行了归纳总结。该方向牵头学者如下:

  • 文本生成
文本生成是将语言或非语言输入转换为文本输出的任务,在现实世界中有一系列重要的应用,例如文本摘要、问答响应生成、图像字幕等等。文本生成的目标是输出流畅、语法正确、语义合理、忠实于输入且易于理解的文本信息。该章节对文本生成任务根据输入输出信息的模态进行了分类,并分别介绍了大模型相关的研究进展情况。随后,该章节介绍了用于文本生成的大模型架构,并在最后提出了有待进一步探索的研究方向。该方向牵头学者如下:

  • 机器翻译
机器翻译是一种利用计算机自动翻译人类语言的技术。自1949年沃伦·韦弗正式提出机器翻译概念以来,该技术已经有70多年的历史。大模型的出现为机器翻译领域的研究注入了新鲜血液,一些基于大模型的机器翻译尝试已经取得了良好的效果。该章节从技术层面介绍了大模型在机器翻译这个下游任务上的应用情况,包括不同语言间的翻译和音频语言的翻译,并在最后总结给出了未来的研究方向。该方向牵头学者如下:
  • 蛋白质研究
蛋白质在人体中起到了关键的作用,是不同组织器官所必需的成分。因此,了解蛋白质的功能并设计具有所需功能的蛋白质对疾病的发现和治疗至关重要。大模型的快速发展和介入使得该交叉领域取得了重大突破,甚至在一些特定任务中超过了人类水平。该章节介绍了大模型与蛋白质研究相结合的研究工作,包括功能预测、结构预测和蛋白质设计,并给出了一些有价值的未来发展方向。该方向牵头学者如下:

《A Roadmap for Big Model》涵盖了从大模型构建前提条件开始,到大模型应用结束的全流程研究工作,共计介绍了16个具体的研究主题。不管是在各个领域研究的横向发展历程上,还是整个大模型的纵向应用流程中,都梳理出了清晰的脉络,能够帮助读者更好的理解大模型的发展历史和研究现状,对于大模型领域的未来发展也能起到指引性的作用,是一篇极具价值的研究综述。
下载方式
Arxiv:https://arxiv.org/abs/2203.14101

智源社区下载:https://baai.org/l/BMRoadmap,或点击阅读原文获取

登录查看更多
6

相关内容

大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。
2021—2022中国人工智能计算力发展评估报告,36页pdf
专知会员服务
70+阅读 · 2021年11月6日
超大规模智能模型产业发展报告(附下载)
专知会员服务
76+阅读 · 2021年9月25日
美国人工智能国家安全委员会发布最终报告, 130页pdf
专知会员服务
137+阅读 · 2021年3月2日
清华大学张敏老师,个性化推荐的基础与趋势,145页ppt
专知会员服务
86+阅读 · 2019年11月27日
会议交流|大模型与图学习等知识图谱相关技术实践探索
清华发布《2018自然语言处理研究报告》
智能交通技术
17+阅读 · 2018年8月4日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年4月15日
Arxiv
17+阅读 · 2021年3月29日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员