【CMU博士论文】长度可外推的Transformer，149页pdf - 专知VIP

会员服务 ·

10

CMU · 博士论文 · Transformer · RegularGPT ·

【CMU博士论文】长度可外推的Transformer，149页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

自从Transformer语言模型问世以来，自然语言处理领域取得了显著进展。不幸的是，训练此类模型的复杂性随着序列长度的增加而成倍增长，这使得资源有限的GPU使用者难以进行长序列长度的预训练。解决这一限制的一种方法是允许模型在测试期间处理更长的序列而无需进一步的参数更新。这种能力称为长度外推，然而它并非易事，且面临诸多挑战。

首先，经典的Transformer语言模型依赖于每个位置的定位嵌入来提供位置信息；在外推阶段遇到未见过的位置时，这可能会出现问题。其次，预训练在短序列上的模型在直接处理长序列时会遇到长度分布转变问题。现有方法在长序列上的困惑度保持稳定一直是个挑战。最后，长度外推能力的评估通常仅依赖自然语言的困惑度；这可能无法全面反映情况，因为自然语言高度局部化，而下游任务如长上下文问答和代码完成则不同。本论文从三个角度解决上述挑战。第一部分研究了定位嵌入在Transformer语言模型中的作用。论文证明，即使没有显式的定位嵌入，强烈的定位信号仍然编码在Transformer语言模型的隐藏状态中。为了利用这一点，论文引入了一种新型的相对定位嵌入，名为KERPLE，其源自条件正定核。第二部分通过测量模型接收域的宽度，对现有的长度外推Transformer进行了详细分析。成功的语言建模任务长度外推的关键在于训练和测试接收域的一致性。这一见解促成了新型相对定位嵌入设计Sandwich的提出，它基于最初提出的正弦定位嵌入。第三部分超越语言建模和困惑度测量，考察了Transformer的长度外推能力。受到近期提出的长上下文检索任务的启发，论文通过依赖数据的Softmax温度调整，提高了Transformer的隐式检索能力。此外，论文还解决了Transformer在形式语言外推任务中的失败问题。借鉴了先前工作中的权重共享、自适应深度和滑动窗口注意力机制的思想，提出了一种新的Transformer变体，名为RegularGPT，在形式语言外推中展示了其能力。

本论文在探讨长度外推Transformer的过程中，提出了未来研究的各种方向，并列出了几种具体的想法，为未来的Transformer长度外推研究铺平了道路。

成为VIP会员查看完整内容

18

相关内容

CMU

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

专知会员服务

24+阅读 · 6月29日

【博士论文】视觉Transformer模型，136页pdf

【博士论文】视觉Transformer模型，136页pdf

专知会员服务

39+阅读 · 5月20日

【ETHZ博士论文】基于交互式语言的智能体，216页pdf

【ETHZ博士论文】基于交互式语言的智能体，216页pdf

专知会员服务

38+阅读 · 2023年11月6日

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

专知会员服务

40+阅读 · 2023年2月27日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知会员服务

55+阅读 · 2022年9月7日

【CMU博士论文】课程学习，Curriculum Learning，193页pdf

【CMU博士论文】课程学习，Curriculum Learning，193页pdf

专知会员服务

51+阅读 · 2022年8月13日

【CMU博士论文】通过记忆的元强化学习，118页pdf

【CMU博士论文】通过记忆的元强化学习，118页pdf

专知会员服务

46+阅读 · 2022年6月23日

【ETH博士论文】贝叶斯深度学习，241页pdf

【ETH博士论文】贝叶斯深度学习，241页pdf

专知会员服务

125+阅读 · 2022年1月16日

【NAACL2021】Graph4NLP：图深度学习自然语言处理，附239页ppt

【NAACL2021】Graph4NLP：图深度学习自然语言处理，附239页ppt

专知会员服务

105+阅读 · 2021年6月12日

【NAACL2021】长序列自然语言处理, 250页ppt

【NAACL2021】长序列自然语言处理, 250页ppt

专知会员服务

61+阅读 · 2021年6月7日

【2023新书】AI4Science，人工智能促进科学发现，134页pdf

【2023新书】AI4Science，人工智能促进科学发现，134页pdf

专知

44+阅读 · 2023年4月5日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

23+阅读 · 2022年9月19日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

21+阅读 · 2022年9月11日

【MIT博士论文】深度学习几何表示，138页pdf

【MIT博士论文】深度学习几何表示，138页pdf

专知

10+阅读 · 2022年9月4日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

15+阅读 · 2022年7月11日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

26+阅读 · 2022年4月5日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

23+阅读 · 2020年10月14日

【KDD2020-Tutorial】深度学习异常检测，180页ppt

【KDD2020-Tutorial】深度学习异常检测，180页ppt

专知

40+阅读 · 2020年8月28日

Python图像处理，366页pdf，Image Operators Image Processing in Python

Python图像处理，366页pdf，Image Operators Image Processing in Python

专知

15+阅读 · 2020年7月23日

CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记

CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记

统计学习与视觉计算组

44+阅读 · 2018年4月25日

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

1+阅读 · 2015年12月31日

非参数核方法的样本外扩展研究

国家自然科学基金

2+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

How to build your latent Markov model -- the role of time and space

Arxiv

0+阅读 · 6月27日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

142+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

78+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

151+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

353+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

54+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

59+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

125+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

18+阅读 · 2023年3月17日

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Arxiv

17+阅读 · 2019年11月6日

VIP会员

相关主题

相关VIP内容

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

专知会员服务

24+阅读 · 6月29日

【博士论文】视觉Transformer模型，136页pdf

【博士论文】视觉Transformer模型，136页pdf

专知会员服务

39+阅读 · 5月20日

【ETHZ博士论文】基于交互式语言的智能体，216页pdf

【ETHZ博士论文】基于交互式语言的智能体，216页pdf

专知会员服务

38+阅读 · 2023年11月6日

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

专知会员服务

40+阅读 · 2023年2月27日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知会员服务

55+阅读 · 2022年9月7日

【CMU博士论文】课程学习，Curriculum Learning，193页pdf

【CMU博士论文】课程学习，Curriculum Learning，193页pdf

专知会员服务

51+阅读 · 2022年8月13日

【CMU博士论文】通过记忆的元强化学习，118页pdf

【CMU博士论文】通过记忆的元强化学习，118页pdf

专知会员服务

46+阅读 · 2022年6月23日

【ETH博士论文】贝叶斯深度学习，241页pdf

【ETH博士论文】贝叶斯深度学习，241页pdf

专知会员服务

125+阅读 · 2022年1月16日

【NAACL2021】Graph4NLP：图深度学习自然语言处理，附239页ppt

【NAACL2021】Graph4NLP：图深度学习自然语言处理，附239页ppt

专知会员服务

105+阅读 · 2021年6月12日

【NAACL2021】长序列自然语言处理, 250页ppt

【NAACL2021】长序列自然语言处理, 250页ppt

专知会员服务

61+阅读 · 2021年6月7日

热门VIP内容

相关资讯

【2023新书】AI4Science，人工智能促进科学发现，134页pdf

【2023新书】AI4Science，人工智能促进科学发现，134页pdf

专知

44+阅读 · 2023年4月5日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

23+阅读 · 2022年9月19日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

21+阅读 · 2022年9月11日

【MIT博士论文】深度学习几何表示，138页pdf

【MIT博士论文】深度学习几何表示，138页pdf

专知

10+阅读 · 2022年9月4日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

15+阅读 · 2022年7月11日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

26+阅读 · 2022年4月5日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

23+阅读 · 2020年10月14日

【KDD2020-Tutorial】深度学习异常检测，180页ppt

【KDD2020-Tutorial】深度学习异常检测，180页ppt

专知

40+阅读 · 2020年8月28日

Python图像处理，366页pdf，Image Operators Image Processing in Python

Python图像处理，366页pdf，Image Operators Image Processing in Python

专知

15+阅读 · 2020年7月23日

CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记

CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记

统计学习与视觉计算组

44+阅读 · 2018年4月25日

相关基金

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

1+阅读 · 2015年12月31日

非参数核方法的样本外扩展研究

国家自然科学基金

2+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

How to build your latent Markov model -- the role of time and space

Arxiv

0+阅读 · 6月27日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

142+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

78+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

151+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

353+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

54+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

59+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

125+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

18+阅读 · 2023年3月17日

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Arxiv

17+阅读 · 2019年11月6日

微信扫码咨询专知VIP会员