ChatGPT |《自动常识推理的基准：综述》纽约大学2023年71页长综述论文

在过去的几年里，人工智能（AI）的几乎所有方面--计算机视觉、机器人、自然语言处理、游戏和各种可以想象的应用--都在许多重要方面取得了非凡的进展。与此同时，在人工智能系统中纳入常识性知识和实施常识性推理的具体挑战方面也取得了重大进展，该领域的研究方式也发生了一些巨变。

具体来说，在过去的十年中，有以下几种变化。

常识推理的问题在人工智能研究中变得更加突出。直到十年前，常识推理还是人工智能研究中一个相当小众的课题。现在它已经成为一个热门词汇，许多人工智能科学家，包括其他子领域的专家，正在研究如何将常识性知识纳入他们的人工智能系统。特别是DARPA赞助了一个多年的项目MCS（有常识的机器），涉及几个不同的研究团队，艾伦人工智能研究所也将常识推理作为其许多研究项目的主要焦点。一些机器学习领域的领军人物已经把常识作为现在人工智能的主要挑战之一。
常识推理的研究重点已经扩大和转移。特别是，现在对常识推理在计算机视觉和现实世界机器人中的应用有了相当多的研究；十年前，几乎没有。相反，像定性空间推理这样的领域已经变得不那么突出。
认知和发展心理学的思想在人工智能的常识推理研究中被越来越多地考虑，来自这些领域的科学家也越来越多地参与到人工智能系统的开发中。
大量的常识资源已经被创建。
大量的常识性基准已经被创建。这些都是本文的主题。

训练集和测试集，同时充当两者。资源被用来实现或提高性能；基准被用来衡量或比较性能。ConceptNet[126]和CYC[81]是资源，但不是任何直接意义上的基准；Winograd模式挑战[82]是一个基准，但不打算作为资源，也不适合作为基准使用。

相反，有些形式的进展是小的、不存在的，或者是落后的。

近年来，只有为数不多的大学课程是关于这个主题的。Henry Lieberman在麻省理工学院的公开课上讲授了一门课程 "交互式应用的常识推理"，Vered Shwartz最近创建了一门课程 "自然语言处理的常识推理"，15年多来没有专门关于常识的教科书[26, 100]。当前版本的Russell和Norvig[113]的第10章中对常识性知识有广泛的讨论。
常识推理的逻辑形式化研讨会在1998年召开，然后从2001年到2015年每两年召开一次，但它已经停止了。据我所知，现在还没有任何定期会议或期刊专门关注自动化常识的话题。

基准可以为研究设定一个议程；事实上，这正是创建基准的主要目的之一。由于对基准的测量是对我们实际需求的不完美替代，其结果可能是研究被误导、扭曲和误解。当然，这在许多领域的测量中往往是真实的；例如，在教育领域，这是很臭的。然而，与人工智能的其他子领域相比，这个问题在常识推理中采取了相当独特的形式，因为正如下文所讨论的，（a）我们对我们实际想要的东西有一个不太明确的想法；（b）基准不可避免地是一种间接的衡量标准。因此，值得仔细分析已经建立的基准，它们达到了什么目的，以及它们的不足之处。

有大量的文献在讨论一般的人工智能基准，特别是计算机视觉和自然语言处理；例如[128, 75, 108, 118] 。因此，本文的主要重点是常识推理所特有的问题，而不是一般人工智能基准所共有的问题。

第1节讨论了一般意义上的常识推理的特征。第2节讨论了测量人工智能系统的常识推理能力的一些问题。第3节讨论了基准的各种可能目标。第4节讨论了常识性基准的必要条件，以及现有的基准常常不能满足这些条件的方式。第5节讨论了四个特别棘手的设计问题。第6节讨论了用于构建基准的技术。第7节对已经构建的基准进行了总体描述。第8节对12个具体的基准进行了详细的描述。第9节讨论了用户社区集体创造的、非系统化的、用于探测ChatGPT聊天机器人极限的各种测试实例。第10节讨论了现有基准中没有测试的常识推理领域。第11节为该领域的未来研究提出了一些建议。

我们从调查中得出了两个主要结论。首先，许多常识性基准都有很大的缺陷，这限制了它们作为衡量标准的作用。在开发常识性基准时，值得投入必要的工作以确保基准具有稳定的高质量。第二，常识性知识和常识性推理的许多重要方面仍然没有被任何现有的基准所检验。因此，我们目前没有任何可靠的方法来衡量现有的人工智能系统在多大程度上实现了常识。