Despite a growing body of work at the intersection of deep learning and formal languages, there has been relatively little systematic exploration of transformer models for reasoning about typed lambda calculi. This is an interesting area of inquiry for two reasons. First, typed lambda calculi are the lingua franc of programming languages. A set of heuristics that relate various typed lambda calculi to effective neural architectures would provide a systematic method for mapping language features (e.g., polymorphism, subtyping, inheritance, etc.) to architecture choices. Second, transformer models are widely used in deep learning architectures applied to code, but the design and hyperparameter space for them is large and relatively unexplored in programming language applications. Therefore, we suggest a benchmark that allows us to explore exactly this through perhaps the simplest and most fundamental property of a programming language: the relationship between terms and types. Consequently, we begin this inquiry of transformer architectures for typed lambda calculi by exploring the effect of transformer warm-up and optimizer selection in the task of type inference: i.e., predicting the types of lambda calculus terms using only transformers. We find that the optimization landscape is difficult even in this simple setting. One particular experimental finding is that optimization by Adafactor converges much faster compared to the optimization by Adam and RAdam. We conjecture that such different performance of optimizers might be related to the difficulties of generalization over formally generated dataset.


翻译:尽管在深度学习和形式语言交叉领域已经有了大量的研究工作,但对于用于类型 λ 演算推理的变压器模型的系统性探索相对较少。这是一个有趣的研究领域,原因在于:类型 λ 演算是编程语言的通用语言;关于如何将语言特征(如多态性、子类型、继承等)与架构选择建立关系的一组启发式算法可以提供一种系统方法;变压器模型广泛地应用于代码中的深度学习架构,但与编程语言的应用相比,其设计和超参数空间是巨大而相对未被探索的。因此,我们建议一个基准案例,通过可能是程序语言中最简单、最基本的属性之一(即术语和类型之间的关系)来探索这一点。因此,我们通过使用变压器来预测λ演算术语的类型,研究了变压器架构在λ演算中的应用。我们发现,即使在这个简单的设置中,优化的最优解也很难寻找。一项特别的实验证明了,与Adam和RAdam优化相比,Adafactor的优化更快地收敛。我们猜想,这种优化器不同的表现可能与正式生成的数据集的泛化困难有关。

0
下载
关闭预览

相关内容

【2022新书】深度学习R语言实战,第二版,568页pdf
专知会员服务
82+阅读 · 2022年10月23日
专知会员服务
123+阅读 · 2020年9月8日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
基于PyTorch/TorchText的自然语言处理库
专知
27+阅读 · 2019年4月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【ECCV2018】24篇论文代码实现
专知
17+阅读 · 2018年9月10日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
深度学习医学图像分析文献集
机器学习研究会
17+阅读 · 2017年10月13日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Soft Merging of Experts with Adaptive Routing
Arxiv
0+阅读 · 2023年6月6日
Arxiv
35+阅读 · 2021年8月2日
Arxiv
24+阅读 · 2021年1月25日
Arxiv
19+阅读 · 2020年7月21日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
基于PyTorch/TorchText的自然语言处理库
专知
27+阅读 · 2019年4月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【ECCV2018】24篇论文代码实现
专知
17+阅读 · 2018年9月10日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
深度学习医学图像分析文献集
机器学习研究会
17+阅读 · 2017年10月13日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员