Automatic math problem solving has recently attracted increasing attention as a long-standing AI benchmark. In this paper, we focus on solving geometric problems, which requires a comprehensive understanding of textual descriptions, visual diagrams, and theorem knowledge. However, the existing methods were highly dependent on handcraft rules and were merely evaluated on small-scale datasets. Therefore, we propose a Geometric Question Answering dataset GeoQA, containing 5,010 geometric problems with corresponding annotated programs, which illustrate the solving process of the given problems. Compared with another publicly available dataset GeoS, GeoQA is 25 times larger, in which the program annotations can provide a practical testbed for future research on explicit and explainable numerical reasoning. Moreover, we introduce a Neural Geometric Solver (NGS) to address geometric problems by comprehensively parsing multimodal information and generating interpretable programs. We further add multiple self-supervised auxiliary tasks on NGS to enhance cross-modal semantic representation. Extensive experiments on GeoQA validate the effectiveness of our proposed NGS and auxiliary tasks. However, the results are still significantly lower than human performance, which leaves large room for future research. Our benchmark and code are released at https://github.com/chen-judge/GeoQA .


翻译:解决自动数学问题作为长期的AI基准最近引起越来越多的关注。在本文中,我们侧重于解决几何问题,这要求全面理解文字描述、视觉图表和理论知识。然而,现有方法高度依赖手工艺规则,仅对小规模数据集进行评估。因此,我们提议采用几何问题回答数据集地理QA,其中包含5 010个几何问题和相应的附加说明程序,以说明特定问题的解决过程。与另一个公开的数据集地理系统相比,GeoQA大25倍,其中方案说明可为未来关于明确和可解释的数字推理研究提供一个实用的测试台。此外,我们引入了神经几何解算器(NGS),通过全面区分多式联运信息和生成可解释程序来解决几何问题。我们进一步在NGS上增加了多个自我强化的辅助任务,以说明所给定问题的解决过程。在GeoQA上的广泛实验验证了我们提议的NGS和辅助任务的有效性。然而,其结果仍然远远低于人类基准,这为未来研究提供了大标准。

0
下载
关闭预览

相关内容

Python编程基础,121页ppt
专知会员服务
47+阅读 · 2021年1月1日
【干货书】机器学习速查手册,135页pdf
专知会员服务
123+阅读 · 2020年11月20日
【Manning新书】现代Java实战,592页pdf
专知会员服务
98+阅读 · 2020年5月22日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
145+阅读 · 2019年10月12日
【新书】Python编程基础,669页pdf
专知会员服务
187+阅读 · 2019年10月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
91+阅读 · 2019年10月10日
【资源】问答阅读理解资源列表
专知
3+阅读 · 2020年7月25日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
已删除
将门创投
6+阅读 · 2018年12月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Hardness-Aware Deep Metric Learning
Arxiv
6+阅读 · 2019年3月13日
Arxiv
5+阅读 · 2018年3月16日
Arxiv
3+阅读 · 2017年12月23日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
Python编程基础,121页ppt
专知会员服务
47+阅读 · 2021年1月1日
【干货书】机器学习速查手册,135页pdf
专知会员服务
123+阅读 · 2020年11月20日
【Manning新书】现代Java实战,592页pdf
专知会员服务
98+阅读 · 2020年5月22日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
145+阅读 · 2019年10月12日
【新书】Python编程基础,669页pdf
专知会员服务
187+阅读 · 2019年10月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
91+阅读 · 2019年10月10日
相关资讯
【资源】问答阅读理解资源列表
专知
3+阅读 · 2020年7月25日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
已删除
将门创投
6+阅读 · 2018年12月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Top
微信扫码咨询专知VIP会员