大语言模型的前世、今生与未来 - 专知VIP

会员服务 ·

51

大型语言模型 ·

2023 年 9 月 8 日

大语言模型的前世、今生与未来

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

大语言模型：NLP技术的奇点时刻。语言模型的核心是对任意一段文本序列进行概率建模，用一个高维向量来表示一个token的全部特征。我们将深度学习应用于NLP领域的范式转移总结为"有监督的机器学习->预训练+微调->预训练+提示"。其中，ChatGPT的横空出世开启了“预训练+提示”的新范式，这主要得益于OpenAI对生成类模型（GPT）和算法规模化（Scalability）这两个基础技术路线的成功押注，大语言模型“涌现”出了解决复杂问题的通用能力，催生了本轮全球范围内的生成式AI浪潮。　　大模型应用：数据感知与代理能力。如何将个人的个性化私有数据和企业多年积累的行业专有知识嫁接到大模型的通用能力上，是大模型在垂直领域商业化落地的核心技术问题。我们在报告中详细列举了三种目前业内主流的实践方法，并对其优劣进行了比较分析。除了获取外部数据外，通过增加代理能力（Agent），让大语言模型具备自主理解、规划、执行复杂任务的能力，同时与计算机内部环境，甚至物理世界进行交互，这也将显著打开大模型应用的想象空间。此外，我们认为提升模型支持的上下文长度是应用创新的关键靶点，模型小型化也将助力大模型应用的商业化落地。　　应用分析框架：通用能力与外部能力的组合。大模型应用可以被总结为，在基座模型的通用能力上，叠加一些其他的可实现的外部能力，这就包括上述的数据感知（可连接其他外部数据源）和代理能力（允许大模型与环境互动）。根据这一范式，我们可以将现阶段大模型的应用边界归纳为通用认知能力与上述两种外部能力的排列组合。基于此，展望未来大模型新应用的靶点可总结为：①通用能力的增强（上下文长度、复杂推理、数学、代码、多模态等）、②外部能力的扩充（处理非结构化数据、使用更复杂的工具、与物理世界的交互等）

成为VIP会员查看完整内容

相关内容

字节跳动李航：对语言大模型的若干观察和思考

字节跳动李航：对语言大模型的若干观察和思考

专知会员服务

63+阅读 · 2023年10月18日

大型语言模型在软件工程：调查与待解决的问题

大型语言模型在软件工程：调查与待解决的问题

专知会员服务

76+阅读 · 2023年10月6日

主流大语言模型的技术原理细节

主流大语言模型的技术原理细节

专知会员服务

166+阅读 · 2023年9月16日

大型语言模型与知识图谱：机遇与挑战

大型语言模型与知识图谱：机遇与挑战

专知会员服务

136+阅读 · 2023年8月23日

【TPAMI2023】面向双任务对话语言理解的关系时序图推理

【TPAMI2023】面向双任务对话语言理解的关系时序图推理

专知会员服务

23+阅读 · 2023年7月5日

清华刘知远：大模型「十问」，寻找新范式下的研究方向

清华刘知远：大模型「十问」，寻找新范式下的研究方向

专知会员服务

70+阅读 · 2023年5月30日

大模型如何赋能医学？全科医学人工智能基础模型

大模型如何赋能医学？全科医学人工智能基础模型

专知会员服务

88+阅读 · 2023年4月13日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

48+阅读 · 2023年1月9日

【NeurIPS2021】黑箱学习算法的信息理论泛化界

专知会员服务

23+阅读 · 2021年10月6日

自然语言处理预训练模型的研究综述

专知会员服务

123+阅读 · 2020年12月9日

【AAAI2023】面向领域自适应语义分割的几何感知网络

【AAAI2023】面向领域自适应语义分割的几何感知网络

专知

8+阅读 · 2022年12月7日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

专知

172+阅读 · 2019年10月28日

67页PPT▍AI时代的机器学习算法、应用及数据处理（附下载）

67页PPT▍AI时代的机器学习算法、应用及数据处理（附下载）

36大数据

28+阅读 · 2019年4月15日

图卷积神经网络的变种与挑战【附PPT与视频资料】

图卷积神经网络的变种与挑战【附PPT与视频资料】

人工智能前沿讲习班

28+阅读 · 2018年12月28日

图神经网络综述：模型与应用

图神经网络综述：模型与应用

PaperWeekly

198+阅读 · 2018年12月26日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

25+阅读 · 2018年5月5日

深度学习时代的目标检测算法

深度学习时代的目标检测算法

炼数成金订阅号

40+阅读 · 2018年3月19日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

正则双极值模糊推理的理论与方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

半参数空间自回归模型的理论研究及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

进化算法行为分析及应用

国家自然科学基金

1+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

Variational measurement-based quantum computation for generative modeling

Arxiv

0+阅读 · 2023年10月20日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

VIP会员

相关主题

大型语言模型

相关VIP内容

字节跳动李航：对语言大模型的若干观察和思考

字节跳动李航：对语言大模型的若干观察和思考

专知会员服务

63+阅读 · 2023年10月18日

大型语言模型在软件工程：调查与待解决的问题

大型语言模型在软件工程：调查与待解决的问题

专知会员服务

76+阅读 · 2023年10月6日

主流大语言模型的技术原理细节

主流大语言模型的技术原理细节

专知会员服务

166+阅读 · 2023年9月16日

大型语言模型与知识图谱：机遇与挑战

大型语言模型与知识图谱：机遇与挑战

专知会员服务

136+阅读 · 2023年8月23日

【TPAMI2023】面向双任务对话语言理解的关系时序图推理

【TPAMI2023】面向双任务对话语言理解的关系时序图推理

专知会员服务

23+阅读 · 2023年7月5日

清华刘知远：大模型「十问」，寻找新范式下的研究方向

清华刘知远：大模型「十问」，寻找新范式下的研究方向

专知会员服务

70+阅读 · 2023年5月30日

大模型如何赋能医学？全科医学人工智能基础模型

大模型如何赋能医学？全科医学人工智能基础模型

专知会员服务

88+阅读 · 2023年4月13日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

48+阅读 · 2023年1月9日

【NeurIPS2021】黑箱学习算法的信息理论泛化界

专知会员服务

23+阅读 · 2021年10月6日

自然语言处理预训练模型的研究综述

专知会员服务

123+阅读 · 2020年12月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

《生态建模密码破译：建模与编程实践》美陆军最新报告

大模型解决方案白皮书：社交陪伴场景全流程落地指南

面向具身操作的视觉-语言-动作模型综述

相关资讯

【AAAI2023】面向领域自适应语义分割的几何感知网络

【AAAI2023】面向领域自适应语义分割的几何感知网络

专知

8+阅读 · 2022年12月7日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

专知

172+阅读 · 2019年10月28日

67页PPT▍AI时代的机器学习算法、应用及数据处理（附下载）

67页PPT▍AI时代的机器学习算法、应用及数据处理（附下载）

36大数据

28+阅读 · 2019年4月15日

图卷积神经网络的变种与挑战【附PPT与视频资料】

图卷积神经网络的变种与挑战【附PPT与视频资料】

人工智能前沿讲习班

28+阅读 · 2018年12月28日

图神经网络综述：模型与应用

图神经网络综述：模型与应用

PaperWeekly

198+阅读 · 2018年12月26日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

25+阅读 · 2018年5月5日

深度学习时代的目标检测算法

深度学习时代的目标检测算法

炼数成金订阅号

40+阅读 · 2018年3月19日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

相关基金

正则双极值模糊推理的理论与方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

半参数空间自回归模型的理论研究及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

进化算法行为分析及应用

国家自然科学基金

1+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

相关论文

Variational measurement-based quantum computation for generative modeling

Arxiv

0+阅读 · 2023年10月20日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

微信扫码咨询专知VIP会员