本次演讲将涵盖大型语言模型中的三个概念——缩放、涌现和推理。缩放是增加 LLMs 模型容量的关键因素,最开始 GPT-3 将模型参数增至 1750 亿,随后 PaLM 进一步将模型参数增至 5400 亿。大规模参数对于涌现能力至关重要。缩放不仅针对模型大小,还与数据大小和总计算量有关。大型语言模型中的突现能力是在小型模型中不存在,但在大型模型中存在的能力。涌现能力的存在意味着进一步的扩展可能会导致语言模型具有更多的新能力。推理是机器学习长期以来面临的挑战的关键,例如从少数示例或抽象指令中学习。大型语言模型仅通过思维链提示就显示出了令人印象深刻的推理能力,这鼓励模型在给出最终答案之前生成中间推理步骤。

缩放是一个简单的想法,具有挑战性,但可以预见地使模型更好。(“缩放法”)

由于规模的扩大,大型语言模型获得了小型模型中不存在的新能力。(“涌现能力”)

巧妙的提示引出了语言模型中的多步骤推理,解锁了更多的新任务。(“提示工程”)

Jason Wei是谷歌Brain的高级研究科学家。他的工作围绕大型语言模型的三个方面:指令微调、思维链提示和突发能力。他之前在谷歌的AI实习项目中工作,在此之前他毕业于达特茅斯学院。https://www.jasonwei.net/

成为VIP会员查看完整内容
99

相关内容

ChatGPT(全名:Chat Generative Pre-trained Transformer),美国OpenAI 研发的聊天机器人程序 [1] ,于2022年11月30日发布 。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文任务。 [1] https://openai.com/blog/chatgpt/
ChatGPT如何work的?最新《大型语言模型》综述,51页slides
专知会员服务
161+阅读 · 2023年2月28日
《大语言模型进展》69页ppt,谷歌研究科学家Jason Wei
专知会员服务
81+阅读 · 2022年10月29日
【GPT-3作者亲解】超大型语言模型少样本学习,109页ppt
专知会员服务
107+阅读 · 2020年12月19日
【自监督学习】OpenAI科学家一文详解自监督学习
产业智能官
25+阅读 · 2020年3月18日
OpenAI科学家一文详解自监督学习
新智元
18+阅读 · 2019年11月20日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年2月28日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
A Survey of Large Language Models
Arxiv
407+阅读 · 2023年3月31日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年2月28日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员