目前的NLP系统可以回答常识性问题,或者写出流利的故事,在基准数据集上获得令人印象深刻的分数。然而,大多数进展是使用为单个任务创建的静态、封闭域数据集进行评估的。为了在野外部署常识推理服务,我们需要能够以开放的方式生成答案,能够执行鲁棒的逻辑推理,并且能够跨不同的任务格式、领域和数据集进行泛化的系统。在这次演讲中,我将分享三个工作,介绍常识推理挑战的新公式以及新的评估协议,以解决上述问题。我们希望鼓励更多的努力,提出“动态的”、通用的常识推理挑战,以评估进展。
https://akbc-cskb.github.io/#talks-and-panel-discussion