【CMU博士论文】朝着更准确的大型语言模型：参数化和非参数化方法 - 专知VIP

会员服务 ·

19

CMU · 博士论文 · 大型语言模型 ·

2024 年 7 月 24 日

【CMU博士论文】朝着更准确的大型语言模型：参数化和非参数化方法

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

大型语言模型（LLMs）在帮助人们获取信息方面越来越重要，从“世界上最大的冰盖在哪里”这样简单的事实性问题到需要获取实时信息和推理的复杂问题，如“计划一次迈阿密的度假”。有两种处理需要事实知识的问题的范式：参数化方法将知识存储在LLMs的参数中，并通过提示来引出这些知识；非参数化方法将知识检索外包给外部的非参数化数据存储。在本论文中，我们旨在研究、比较并增强这两种范式的能力。由于LLMs通过在多样的语料库上进行预训练，已经在其参数中积累了大量知识，因此可以在被提示提问时直接生成答案。在论文的第一部分中，我们重点关注利用LLMs参数中包含的事实性知识的参数化方法。我们首先研究通过组合从不同提示中得出的多种预测来提取更多知识的方法。然后，我们校准LLMs，使其在回答超出其知识范围的问题时变得更加可信。我们发现，即使LLMs完全记住文档并能够逐字复述它们，仍然常常无法回答有关这些文档的问题。为了增强LLMs从文档中吸收知识的能力，我们提出了在预训练文档之前进行问题回答任务教学的预指令调整方法。

参数化方法提供了一个简单的接口，但它们存在幻觉问题，并且无法访问实时的外部信息。在论文的第二部分中，我们重点关注通过非参数化数据存储扩展LLMs的非参数化方法，这通常由一个文档语料库和一个检索器构建。标准的检索增强生成（RAG）流程包括基于嵌入的检索器和基于LLM的生成器，通常需要单独的训练程序，并且往往受限于检索器的性能。我们引入了一种将检索与生成融合在单个变换器中的端到端解决方案，并直接使用注意力机制进行检索。为了解决需要详细回答的复杂问题，我们引入了Active RAG，它在生成过程中动态和主动地检索信息。最后，我们通过比较和调和两种范式并提供对未来方向的见解来总结我们的研究。

成为VIP会员查看完整内容

34

相关内容

CMU

【KDD2024教程】RAG遇上LLMs：迈向检索增强的大语言模型

【KDD2024教程】RAG遇上LLMs：迈向检索增强的大语言模型

专知会员服务

66+阅读 · 2024年9月7日

【CMU博士论文】图深度学习：应对可扩展性、隐私性和多模态挑战

【CMU博士论文】图深度学习：应对可扩展性、隐私性和多模态挑战

专知会员服务

30+阅读 · 2024年9月4日

【CMU博士论文】关于通过终任务感知训练实现资源高效的迁移学习

【CMU博士论文】关于通过终任务感知训练实现资源高效的迁移学习

专知会员服务

26+阅读 · 2024年8月18日

【MIT博士论文】大规模机器学习算法：效率、估计误差及其拓展

【MIT博士论文】大规模机器学习算法：效率、估计误差及其拓展

专知会员服务

28+阅读 · 2024年8月3日

【CMU博士论文】通过可解释的层级操作实现基础自然语言生成

【CMU博士论文】通过可解释的层级操作实现基础自然语言生成

专知会员服务

18+阅读 · 2024年7月24日

【ETHZ博士论文】有限数据中的元学习先验：从理论到实践

【ETHZ博士论文】有限数据中的元学习先验：从理论到实践

专知会员服务

36+阅读 · 2024年6月4日

【剑桥大学博士论文】使用机器学习的因果推断中的两个问题的半参数方法

【剑桥大学博士论文】使用机器学习的因果推断中的两个问题的半参数方法

专知会员服务

26+阅读 · 2024年5月25日

【CMU博士论文】高效的深度神经网络终身学习：架构、训练和数据的优化

【CMU博士论文】高效的深度神经网络终身学习：架构、训练和数据的优化

专知会员服务

41+阅读 · 2024年4月24日

【EMNLP2023】基于文本属性异构图的语言模型预训练

【EMNLP2023】基于文本属性异构图的语言模型预训练

专知会员服务

22+阅读 · 2023年10月21日

【CMU博士论文】概率强化学习：使用数据定义期望的结果并推断如何达到

【CMU博士论文】概率强化学习：使用数据定义期望的结果并推断如何达到

专知会员服务

42+阅读 · 2023年7月31日

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

52+阅读 · 2023年4月13日

【2022新书】元学习: 理论，算法和应用, 404页pdf

【2022新书】元学习: 理论，算法和应用, 404页pdf

专知

25+阅读 · 2022年11月27日

【经典书】图数据挖掘算法，安全性及应用，256页pdf

【经典书】图数据挖掘算法，安全性及应用，256页pdf

专知

17+阅读 · 2022年8月22日

【2022新书】机器学习中的概率数值计算，412页pdf

【2022新书】机器学习中的概率数值计算，412页pdf

专知

31+阅读 · 2022年7月7日

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

专知

24+阅读 · 2022年5月4日

【2022新书】元学习(Meta Learning ): 自动机器学习与数据挖掘

【2022新书】元学习(Meta Learning ): 自动机器学习与数据挖掘

专知

20+阅读 · 2022年3月7日

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

专知

17+阅读 · 2021年1月24日

最新《图嵌入组合优化》综述论文，40页pdf

最新《图嵌入组合优化》综述论文，40页pdf

专知

39+阅读 · 2020年8月31日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

20+阅读 · 2020年5月26日

【AAAI 2020论文】一种面向推荐的自适应margin对称度量学习方法

【AAAI 2020论文】一种面向推荐的自适应margin对称度量学习方法

专知

16+阅读 · 2019年12月29日

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

材料与加工敏感的形状分析与建模

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于最大相关熵准则的支持向量机模型与算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

网状meta分析实效性评价方法及其广义线性混合效应模型的构建与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

475+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Revolutionizing Modern Networks: Advances in AI, Machine Learning, and Blockchain for Quantum Satellites and UAV-based Communication

Arxiv

32+阅读 · 2023年3月21日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

VIP会员

相关主题

大型语言模型

相关VIP内容

【KDD2024教程】RAG遇上LLMs：迈向检索增强的大语言模型

【KDD2024教程】RAG遇上LLMs：迈向检索增强的大语言模型

专知会员服务

66+阅读 · 2024年9月7日

【CMU博士论文】图深度学习：应对可扩展性、隐私性和多模态挑战

【CMU博士论文】图深度学习：应对可扩展性、隐私性和多模态挑战

专知会员服务

30+阅读 · 2024年9月4日

【CMU博士论文】关于通过终任务感知训练实现资源高效的迁移学习

【CMU博士论文】关于通过终任务感知训练实现资源高效的迁移学习

专知会员服务

26+阅读 · 2024年8月18日

【MIT博士论文】大规模机器学习算法：效率、估计误差及其拓展

【MIT博士论文】大规模机器学习算法：效率、估计误差及其拓展

专知会员服务

28+阅读 · 2024年8月3日

【CMU博士论文】通过可解释的层级操作实现基础自然语言生成

【CMU博士论文】通过可解释的层级操作实现基础自然语言生成

专知会员服务

18+阅读 · 2024年7月24日

【ETHZ博士论文】有限数据中的元学习先验：从理论到实践

【ETHZ博士论文】有限数据中的元学习先验：从理论到实践

专知会员服务

36+阅读 · 2024年6月4日

【剑桥大学博士论文】使用机器学习的因果推断中的两个问题的半参数方法

【剑桥大学博士论文】使用机器学习的因果推断中的两个问题的半参数方法

专知会员服务

26+阅读 · 2024年5月25日

【CMU博士论文】高效的深度神经网络终身学习：架构、训练和数据的优化

【CMU博士论文】高效的深度神经网络终身学习：架构、训练和数据的优化

专知会员服务

41+阅读 · 2024年4月24日

【EMNLP2023】基于文本属性异构图的语言模型预训练

【EMNLP2023】基于文本属性异构图的语言模型预训练

专知会员服务

22+阅读 · 2023年10月21日

【CMU博士论文】概率强化学习：使用数据定义期望的结果并推断如何达到

【CMU博士论文】概率强化学习：使用数据定义期望的结果并推断如何达到

专知会员服务

42+阅读 · 2023年7月31日

热门VIP内容

开通专知VIP会员享更多权益服务

《战区安全决策课程体系》最新244页

《"无人机航母"原型平台》

任务规划与地形分析：现代复杂环境作战导航体系

《攻击场景描述形式化模型研究》

相关资讯

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

52+阅读 · 2023年4月13日

【2022新书】元学习: 理论，算法和应用, 404页pdf

【2022新书】元学习: 理论，算法和应用, 404页pdf

专知

25+阅读 · 2022年11月27日

【经典书】图数据挖掘算法，安全性及应用，256页pdf

【经典书】图数据挖掘算法，安全性及应用，256页pdf

专知

17+阅读 · 2022年8月22日

【2022新书】机器学习中的概率数值计算，412页pdf

【2022新书】机器学习中的概率数值计算，412页pdf

专知

31+阅读 · 2022年7月7日

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

专知

24+阅读 · 2022年5月4日

【2022新书】元学习(Meta Learning ): 自动机器学习与数据挖掘

【2022新书】元学习(Meta Learning ): 自动机器学习与数据挖掘

专知

20+阅读 · 2022年3月7日

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

专知

17+阅读 · 2021年1月24日

最新《图嵌入组合优化》综述论文，40页pdf

最新《图嵌入组合优化》综述论文，40页pdf

专知

39+阅读 · 2020年8月31日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

20+阅读 · 2020年5月26日

【AAAI 2020论文】一种面向推荐的自适应margin对称度量学习方法

【AAAI 2020论文】一种面向推荐的自适应margin对称度量学习方法

专知

16+阅读 · 2019年12月29日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

材料与加工敏感的形状分析与建模

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于最大相关熵准则的支持向量机模型与算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

网状meta分析实效性评价方法及其广义线性混合效应模型的构建与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

475+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Revolutionizing Modern Networks: Advances in AI, Machine Learning, and Blockchain for Quantum Satellites and UAV-based Communication

Arxiv

32+阅读 · 2023年3月21日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

微信扫码咨询专知VIP会员