ChatGPT大模型work三个要点是什么？谷歌JasonWei最新《大型语言模型的缩放、涌现和推理》报告，附Slides与视频 - 专知VIP

会员服务 ·

49

ChatGPT · 大模型 · 涌现能力 · 推理 ·

2023 年 4 月 14 日

ChatGPT大模型work三个要点是什么？谷歌JasonWei最新《大型语言模型的缩放、涌现和推理》报告，附Slides与视频

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本次演讲将涵盖大型语言模型中的三个概念——缩放、涌现和推理。缩放是增加 LLMs 模型容量的关键因素，最开始 GPT-3 将模型参数增至 1750 亿，随后 PaLM 进一步将模型参数增至 5400 亿。大规模参数对于涌现能力至关重要。缩放不仅针对模型大小，还与数据大小和总计算量有关。大型语言模型中的突现能力是在小型模型中不存在，但在大型模型中存在的能力。涌现能力的存在意味着进一步的扩展可能会导致语言模型具有更多的新能力。推理是机器学习长期以来面临的挑战的关键，例如从少数示例或抽象指令中学习。大型语言模型仅通过思维链提示就显示出了令人印象深刻的推理能力，这鼓励模型在给出最终答案之前生成中间推理步骤。

缩放是一个简单的想法，具有挑战性，但可以预见地使模型更好。(“缩放法”)

由于规模的扩大，大型语言模型获得了小型模型中不存在的新能力。(“涌现能力”)

巧妙的提示引出了语言模型中的多步骤推理，解锁了更多的新任务。(“提示工程”)

Jason Wei是谷歌Brain的高级研究科学家。他的工作围绕大型语言模型的三个方面:指令微调、思维链提示和突发能力。他之前在谷歌的AI实习项目中工作，在此之前他毕业于达特茅斯学院。https://www.jasonwei.net/

成为VIP会员查看完整内容

相关内容

ChatGPT

ChatGPT（全名：Chat Generative Pre-trained Transformer），美国OpenAI 研发的聊天机器人程序 [1] ，于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然语言处理工具，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码，写论文任务。 [1] https://openai.com/blog/chatgpt/

PaLM 2 大模型发布！谷歌反击ChatGPT， 92页《Google PaLM 2 技术报告》论文详细阐述！附中文版下载

PaLM 2 大模型发布！谷歌反击ChatGPT， 92页《Google PaLM 2 技术报告》论文详细阐述！附中文版下载

专知会员服务

172+阅读 · 2023年5月11日

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

专知会员服务

112+阅读 · 2023年5月6日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知会员服务

181+阅读 · 2023年4月4日

重磅！人大等最新《大模型》综述，51页pdf详述大型语言模型进展

重磅！人大等最新《大模型》综述，51页pdf详述大型语言模型进展

专知会员服务

362+阅读 · 2023年4月3日

ChatGPT中的提示工程(Prompt)怎么做？DAIR.AI最新《提示工程指南》，全面讲述提示技术，附书册课件视频

ChatGPT中的提示工程(Prompt)怎么做？DAIR.AI最新《提示工程指南》，全面讲述提示技术，附书册课件视频

专知会员服务

235+阅读 · 2023年3月20日

ChatGPT如何work的？最新《大型语言模型》综述，51页slides

ChatGPT如何work的？最新《大型语言模型》综述，51页slides

专知会员服务

162+阅读 · 2023年2月28日

《大语言模型进展》69页ppt，谷歌研究科学家Jason Wei

《大语言模型进展》69页ppt，谷歌研究科学家Jason Wei

专知会员服务

86+阅读 · 2022年10月29日

【ICML2021】计算机视觉中的自注意力机制，谷歌伯克利166页ppt教程

专知会员服务

135+阅读 · 2021年7月22日

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

专知会员服务

109+阅读 · 2020年12月19日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

专知

22+阅读 · 2023年4月10日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

24+阅读 · 2023年4月4日

《大语言模型进展》69页ppt，谷歌研究科学家Jason Wei

《大语言模型进展》69页ppt，谷歌研究科学家Jason Wei

专知

3+阅读 · 2022年10月29日

30亿跑赢GPT-3的1750亿，谷歌新模型引热议，然而却把Hinton年龄搞错了

30亿跑赢GPT-3的1750亿，谷歌新模型引热议，然而却把Hinton年龄搞错了

机器之心

1+阅读 · 2022年10月22日

谷歌、DeepMind新研究：归纳偏置如何影响模型缩放？

谷歌、DeepMind新研究：归纳偏置如何影响模型缩放？

机器之心

0+阅读 · 2022年8月22日

ICML2022开会了！如炼何大模型？伯克利最新《大模型训练和服务的技术和系统》教程，176页ppt阐述大模型关键技术，附视频

ICML2022开会了！如炼何大模型？伯克利最新《大模型训练和服务的技术和系统》教程，176页ppt阐述大模型关键技术，附视频

专知

0+阅读 · 2022年7月18日

442个作者100页论文！谷歌耗时2年发布大模型新基准BIG-Bench | 开源

442个作者100页论文！谷歌耗时2年发布大模型新基准BIG-Bench | 开源

量子位

4+阅读 · 2022年6月11日

【自监督学习】OpenAI科学家一文详解自监督学习

【自监督学习】OpenAI科学家一文详解自监督学习

产业智能官

25+阅读 · 2020年3月18日

OpenAI科学家一文详解自监督学习

OpenAI科学家一文详解自监督学习

新智元

18+阅读 · 2019年11月20日

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

数据派THU

10+阅读 · 2017年11月11日

生物质催化热解制备先进液体燃料中催化剂积碳行为及其调控研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向移动机器人语义对象的协同感知注意机制及分割方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于事件曝光模型的云服务测试与调试研究

国家自然科学基金

0+阅读 · 2012年12月31日

猴前额叶皮层神经元在序列计数操作中的作用

国家自然科学基金

0+阅读 · 2012年12月31日

视频中交互行为的自动分析与理解

国家自然科学基金

1+阅读 · 2012年12月31日

双向多维脑机接口关键技术及其应用研究

国家自然科学基金

1+阅读 · 2011年12月31日

区域紧急疏散的决策支持方法研究

国家自然科学基金

0+阅读 · 2011年2月28日

基于场景分析和视觉注意力的目标搜索

国家自然科学基金

0+阅读 · 2010年12月31日

片段化生产、技术内化与中国制造企业的转型研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于心理学归因理论的社会推理计算模型研究

国家自然科学基金

1+阅读 · 2008年12月31日

How to Unleash the Power of Large Language Models for Few-shot Relation Extraction?

Arxiv

0+阅读 · 2023年6月1日

Scalable Performance Analysis for Vision-Language Models

Arxiv

0+阅读 · 2023年5月31日

Neuron to Graph: Interpreting Language Model Neurons at Scale

Arxiv

0+阅读 · 2023年5月31日

Generating EDU Extracts for Plan-Guided Summary Re-Ranking

Arxiv

0+阅读 · 2023年5月28日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

Cross-Node Federated Graph Neural Network for Spatio-Temporal Data Modeling

Arxiv

17+阅读 · 2021年6月9日

Self-Supervised Learning For Few-Shot Image Classification

Self-Supervised Learning For Few-Shot Image Classification

Arxiv

19+阅读 · 2019年11月14日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition

Arxiv

19+阅读 · 2018年12月10日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

VIP会员

相关主题

相关VIP内容

PaLM 2 大模型发布！谷歌反击ChatGPT， 92页《Google PaLM 2 技术报告》论文详细阐述！附中文版下载

PaLM 2 大模型发布！谷歌反击ChatGPT， 92页《Google PaLM 2 技术报告》论文详细阐述！附中文版下载

专知会员服务

172+阅读 · 2023年5月11日

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

专知会员服务

112+阅读 · 2023年5月6日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知会员服务

181+阅读 · 2023年4月4日

重磅！人大等最新《大模型》综述，51页pdf详述大型语言模型进展

重磅！人大等最新《大模型》综述，51页pdf详述大型语言模型进展

专知会员服务

362+阅读 · 2023年4月3日

ChatGPT中的提示工程(Prompt)怎么做？DAIR.AI最新《提示工程指南》，全面讲述提示技术，附书册课件视频

ChatGPT中的提示工程(Prompt)怎么做？DAIR.AI最新《提示工程指南》，全面讲述提示技术，附书册课件视频

专知会员服务

235+阅读 · 2023年3月20日

ChatGPT如何work的？最新《大型语言模型》综述，51页slides

ChatGPT如何work的？最新《大型语言模型》综述，51页slides

专知会员服务

162+阅读 · 2023年2月28日

《大语言模型进展》69页ppt，谷歌研究科学家Jason Wei

《大语言模型进展》69页ppt，谷歌研究科学家Jason Wei

专知会员服务

86+阅读 · 2022年10月29日

【ICML2021】计算机视觉中的自注意力机制，谷歌伯克利166页ppt教程

专知会员服务

135+阅读 · 2021年7月22日

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

专知会员服务

109+阅读 · 2020年12月19日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

《生态建模密码破译：建模与编程实践》美陆军最新报告

大模型解决方案白皮书：社交陪伴场景全流程落地指南

面向具身操作的视觉-语言-动作模型综述

相关资讯

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

专知

22+阅读 · 2023年4月10日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

24+阅读 · 2023年4月4日

《大语言模型进展》69页ppt，谷歌研究科学家Jason Wei

《大语言模型进展》69页ppt，谷歌研究科学家Jason Wei

专知

3+阅读 · 2022年10月29日

30亿跑赢GPT-3的1750亿，谷歌新模型引热议，然而却把Hinton年龄搞错了

30亿跑赢GPT-3的1750亿，谷歌新模型引热议，然而却把Hinton年龄搞错了

机器之心

1+阅读 · 2022年10月22日

谷歌、DeepMind新研究：归纳偏置如何影响模型缩放？

谷歌、DeepMind新研究：归纳偏置如何影响模型缩放？

机器之心

0+阅读 · 2022年8月22日

ICML2022开会了！如炼何大模型？伯克利最新《大模型训练和服务的技术和系统》教程，176页ppt阐述大模型关键技术，附视频

ICML2022开会了！如炼何大模型？伯克利最新《大模型训练和服务的技术和系统》教程，176页ppt阐述大模型关键技术，附视频

专知

0+阅读 · 2022年7月18日

442个作者100页论文！谷歌耗时2年发布大模型新基准BIG-Bench | 开源

442个作者100页论文！谷歌耗时2年发布大模型新基准BIG-Bench | 开源

量子位

4+阅读 · 2022年6月11日

【自监督学习】OpenAI科学家一文详解自监督学习

【自监督学习】OpenAI科学家一文详解自监督学习

产业智能官

25+阅读 · 2020年3月18日

OpenAI科学家一文详解自监督学习

OpenAI科学家一文详解自监督学习

新智元

18+阅读 · 2019年11月20日

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

数据派THU

10+阅读 · 2017年11月11日

相关基金

生物质催化热解制备先进液体燃料中催化剂积碳行为及其调控研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向移动机器人语义对象的协同感知注意机制及分割方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于事件曝光模型的云服务测试与调试研究

国家自然科学基金

0+阅读 · 2012年12月31日

猴前额叶皮层神经元在序列计数操作中的作用

国家自然科学基金

0+阅读 · 2012年12月31日

视频中交互行为的自动分析与理解

国家自然科学基金

1+阅读 · 2012年12月31日

双向多维脑机接口关键技术及其应用研究

国家自然科学基金

1+阅读 · 2011年12月31日

区域紧急疏散的决策支持方法研究

国家自然科学基金

0+阅读 · 2011年2月28日

基于场景分析和视觉注意力的目标搜索

国家自然科学基金

0+阅读 · 2010年12月31日

片段化生产、技术内化与中国制造企业的转型研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于心理学归因理论的社会推理计算模型研究

国家自然科学基金

1+阅读 · 2008年12月31日

相关论文

How to Unleash the Power of Large Language Models for Few-shot Relation Extraction?

Arxiv

0+阅读 · 2023年6月1日

Scalable Performance Analysis for Vision-Language Models

Arxiv

0+阅读 · 2023年5月31日

Neuron to Graph: Interpreting Language Model Neurons at Scale

Arxiv

0+阅读 · 2023年5月31日

Generating EDU Extracts for Plan-Guided Summary Re-Ranking

Arxiv

0+阅读 · 2023年5月28日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

Cross-Node Federated Graph Neural Network for Spatio-Temporal Data Modeling

Arxiv

17+阅读 · 2021年6月9日

Self-Supervised Learning For Few-Shot Image Classification

Self-Supervised Learning For Few-Shot Image Classification

Arxiv

19+阅读 · 2019年11月14日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition

Arxiv

19+阅读 · 2018年12月10日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

微信扫码咨询专知VIP会员