Investigating the reasoning abilities of transformer models, and discovering new challenging tasks for them, has been a topic of much interest. Recent studies have found these models to be surprisingly strong at performing deductive reasoning over formal logical theories expressed in natural language. A shortcoming of these studies, however, is that they do not take into account that logical theories, when sampled uniformly at random, do not necessarily lead to hard instances. We propose a new methodology for creating challenging algorithmic reasoning datasets that focus on natural language satisfiability (NLSat) problems. The key idea is to draw insights from empirical sampling of hard propositional SAT problems and from complexity-theoretic studies of language. This methodology allows us to distinguish easy from hard instances, and to systematically increase the complexity of existing reasoning benchmarks such as RuleTaker. We find that current transformers, given sufficient training data, are surprisingly robust at solving the resulting NLSat problems of substantially increased difficulty. They also exhibit some degree of scale-invariance - the ability to generalize to problems of larger size and scope. Our results, however, reveal important limitations too: a careful sampling of training data is crucial for building models that generalize to larger problems, and transformer models' limited scale-invariance suggests they are far from learning robust deductive reasoning algorithms.


翻译:调查变压器模型的推理能力并发现对变压器模型的新的具有挑战性的任务,这是一个非常令人感兴趣的专题。最近的研究发现,这些模型在对自然语言表达的正式逻辑理论进行推理推理学的实验性推理方面,令人惊讶地表现出很强的强力。然而,这些研究的一个缺点是,它们没有考虑到逻辑理论,当统一随机抽样时,并不一定会导致困难的出现。我们提出了一种新的方法,以创建具有挑战性的算法推理数据集,侧重于自然语言可比较性问题。关键的想法是从硬性理论SAT问题和语言复杂理论研究的实验性抽样中提取洞见。这种方法使我们能够很容易地区分困难的实例,并系统地提高现有推理基准的复杂性,例如规则实验仪。我们发现,由于有足够的培训数据,目前的变压器在解决由此产生的NLSat系统问题方面,难度大得多,令人惊讶。它们也表现出某种程度的偏差,即能够将问题概括到更大的规模和范围。然而,我们的结果也揭示了重要的局限性:仔细地对培训数据进行抽样分析,对于构建更稳健的模型来说,从更精确的推论到更广义的推论,意味着是更大规模的推论问题。

0
下载
关闭预览

相关内容

演绎推理(Deductive Reasoning)是由一般到特殊的推理方法。与“归纳法”相对。推论前提与结论之间的联系是必然的,是一种确实性推理。演绎推理的形式有三段论、假言推理和选言推理等。
【杜克-Bhuwan Dhingra】语言模型即知识图谱,46页ppt
专知会员服务
65+阅读 · 2021年11月15日
最新《Transformers模型》教程,64页ppt
专知会员服务
291+阅读 · 2020年11月26日
最新《时序分类:深度序列模型》教程,172页ppt
专知会员服务
42+阅读 · 2020年11月11日
因果图,Causal Graphs,52页ppt
专知会员服务
241+阅读 · 2020年4月19日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
101+阅读 · 2019年10月9日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
已删除
将门创投
3+阅读 · 2019年6月12日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2022年2月16日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
已删除
将门创投
3+阅读 · 2019年6月12日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员