【斯坦福博士论文】基础模型真实世界应用，178页pdf - 专知VIP

会员服务 ·

44

基础模型 · 博士论文 · 大模型 · 斯坦福大学 (Stanford University) ·

2023 年 6 月 15 日

【斯坦福博士论文】基础模型真实世界应用，178页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

基础模型正在迅速从实验室起源转向现实世界的部署和使用。在这篇论文中，我讨论了两个相互关联的研究线，它们致力于弥合这个鸿沟，以便基础模型能够在现实世界的环境中，如工程、医学或科学等领域中，得到有效的应用。第一种研究是使模型更加领域无关：尽管训练基础模型的技术是为语言和视觉领域开发的，但我们证明了简单的技术可以将这些方法推广到至少十二个不同的领域。第二个研究是使模型在任务模糊性的情况下更有用，也就是说用户希望完成的任务可能模糊或未完全明确，这在现实世界环境中往往是常态。在这里，我们展示了如何衡量和提高基础模型在任务模糊性下的性能，并探索了模型本身如何帮助澄清用户意图的过程。我们在讨论未来的方向和更广阔的挑战及机遇前景时结束。

通用机器学习模型已经到来。尽管它们常常不完美、不可靠、不值得信赖或存在偏见，但现在存在的机器学习模型能够通过自然语言或图像示例快速学习一系列新任务。使用这些模型的一般公式有两个步骤。首先，对模型进行大量广泛的数据训练，如从互联网上策略性地抓取的图像或文本，然后将其适应于所需的任务，例如，通过一组输入输出示例的自然语言指令。对于这种范例，已经创造了基础模型这个术语，因为第一阶段的训练产生了一个模型，可以作为这些许多下游用例的集中基础[Bommasani等人，2021]。

支撑这些模型的进步源自于各大研究实验室的广泛进展——太多以至于无法一一列举。一些重要的例子包括构建和策划大规模数据集（例如，C4 [Raffel et al., 2020]，ImageNet [Deng et al., 2009a]），为评估模型构建下游任务和基准测试（例如，GLUE [Wang et al., 2018a]，SQuAD [Rajpurkar et al., 2016]，ImageNet [Deng et al., 2009a]），为专用机器学习加速器开发硬件和软件堆栈（例如，CUDA [Catanzaro et al., 2008, Garland et al., 2008]，AlexNet [Krizhevsky, 2009a]，TPUs [Jouppi et al., 2017]），训练神经网络的编程抽象（例如，Torch [Collobert et al., 2011]，Theano [Team et al., 2016]，TensorFlow [Abadi et al., 2016]，PyTorch [Paszke et al., 2019]，JAX [Frostig et al., 2018]），可扩展的机器学习架构（例如，ResNets [He et al., 2016]，Transformers [Vaswani et al., 2017b]），优化器和分布式训练的改进（例如，Adam [Kingma and Ba, 2014]，Megatron [Shoeybi et al., 2019]），当然还有大规模无监督预训练和迁移学习（例如，BERT [Devlin et al., 2018]，GPT-3 [Brown et al., 2020]）。

成为VIP会员查看完整内容

78

相关内容

基础模型

【斯坦福博士论文】大模型(基础模型)现实应用，178页pdf

【斯坦福博士论文】大模型(基础模型)现实应用，178页pdf

专知会员服务

120+阅读 · 2023年7月9日

【伯克利博士论文】可迁移生成模型，137页pdf

【伯克利博士论文】可迁移生成模型，137页pdf

专知会员服务

54+阅读 · 2023年5月23日

【伯克利博士论文】构建鲁棒且可扩展的大型语言模型，102页pdf

【伯克利博士论文】构建鲁棒且可扩展的大型语言模型，102页pdf

专知会员服务

45+阅读 · 2023年5月16日

【普林斯顿博士论文】面向物理科学的可解释机器学习，242页pdf

【普林斯顿博士论文】面向物理科学的可解释机器学习，242页pdf

专知会员服务

77+阅读 · 2023年4月22日

【匹兹堡大学博士论文】数据限制下的因果推理，147页pdf

【匹兹堡大学博士论文】数据限制下的因果推理，147页pdf

专知会员服务

45+阅读 · 2023年1月27日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知会员服务

82+阅读 · 2022年10月19日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知会员服务

43+阅读 · 2022年10月15日

【斯坦福博士论文】机器学习的模型解释和数据评估，206页pdf

专知会员服务

128+阅读 · 2021年8月3日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

77+阅读 · 2021年5月23日

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf

专知会员服务

104+阅读 · 2020年6月13日

【斯坦福博士论文】生成模型中深度概率推理的扩展与应用，262页pdf

【斯坦福博士论文】生成模型中深度概率推理的扩展与应用，262页pdf

专知

8+阅读 · 2022年11月30日

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

专知

6+阅读 · 2022年11月29日

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法，164页pdf

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法，164页pdf

专知

9+阅读 · 2022年11月28日

【斯坦福大学博士论文】深度学习医学图像解译，205页pdf

【斯坦福大学博士论文】深度学习医学图像解译，205页pdf

专知

4+阅读 · 2022年11月18日

【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

专知

6+阅读 · 2022年10月31日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知

9+阅读 · 2022年10月19日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

10+阅读 · 2022年10月15日

【伯克利博士论文】学习在动态环境中泛化，103页pdf

【伯克利博士论文】学习在动态环境中泛化，103页pdf

专知

6+阅读 · 2022年10月12日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】深度迁移学习贝叶斯推断，157页pdf

【牛津大学博士论文】深度迁移学习贝叶斯推断，157页pdf

专知

5+阅读 · 2022年9月28日

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

8+阅读 · 2015年12月31日

模糊情况下的最优消费与投资

国家自然科学基金

3+阅读 · 2015年12月31日

反问题的数学建模、计算及应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于高效蒙特卡罗策略的最优化方法及应用研究

国家自然科学基金

9+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于认知和行动观点的环境技术创新中的时间战略研究

国家自然科学基金

13+阅读 · 2009年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

475+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

173+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

VIP会员

相关主题

斯坦福大学 (Stanford University)

相关VIP内容

【斯坦福博士论文】大模型(基础模型)现实应用，178页pdf

【斯坦福博士论文】大模型(基础模型)现实应用，178页pdf

专知会员服务

120+阅读 · 2023年7月9日

【伯克利博士论文】可迁移生成模型，137页pdf

【伯克利博士论文】可迁移生成模型，137页pdf

专知会员服务

54+阅读 · 2023年5月23日

【伯克利博士论文】构建鲁棒且可扩展的大型语言模型，102页pdf

【伯克利博士论文】构建鲁棒且可扩展的大型语言模型，102页pdf

专知会员服务

45+阅读 · 2023年5月16日

【普林斯顿博士论文】面向物理科学的可解释机器学习，242页pdf

【普林斯顿博士论文】面向物理科学的可解释机器学习，242页pdf

专知会员服务

77+阅读 · 2023年4月22日

【匹兹堡大学博士论文】数据限制下的因果推理，147页pdf

【匹兹堡大学博士论文】数据限制下的因果推理，147页pdf

专知会员服务

45+阅读 · 2023年1月27日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知会员服务

82+阅读 · 2022年10月19日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知会员服务

43+阅读 · 2022年10月15日

【斯坦福博士论文】机器学习的模型解释和数据评估，206页pdf

专知会员服务

128+阅读 · 2021年8月3日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

77+阅读 · 2021年5月23日

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf

专知会员服务

104+阅读 · 2020年6月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《战区安全决策课程体系》最新244页

《"无人机航母"原型平台》

任务规划与地形分析：现代复杂环境作战导航体系

《攻击场景描述形式化模型研究》

相关资讯

【斯坦福博士论文】生成模型中深度概率推理的扩展与应用，262页pdf

【斯坦福博士论文】生成模型中深度概率推理的扩展与应用，262页pdf

专知

8+阅读 · 2022年11月30日

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

专知

6+阅读 · 2022年11月29日

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法，164页pdf

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法，164页pdf

专知

9+阅读 · 2022年11月28日

【斯坦福大学博士论文】深度学习医学图像解译，205页pdf

【斯坦福大学博士论文】深度学习医学图像解译，205页pdf

专知

4+阅读 · 2022年11月18日

【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

专知

6+阅读 · 2022年10月31日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知

9+阅读 · 2022年10月19日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

10+阅读 · 2022年10月15日

【伯克利博士论文】学习在动态环境中泛化，103页pdf

【伯克利博士论文】学习在动态环境中泛化，103页pdf

专知

6+阅读 · 2022年10月12日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】深度迁移学习贝叶斯推断，157页pdf

【牛津大学博士论文】深度迁移学习贝叶斯推断，157页pdf

专知

5+阅读 · 2022年9月28日

相关基金

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

8+阅读 · 2015年12月31日

模糊情况下的最优消费与投资

国家自然科学基金

3+阅读 · 2015年12月31日

反问题的数学建模、计算及应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于高效蒙特卡罗策略的最优化方法及应用研究

国家自然科学基金

9+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于认知和行动观点的环境技术创新中的时间战略研究

国家自然科学基金

13+阅读 · 2009年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

475+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

173+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

微信扫码咨询专知VIP会员