通用语言模型改变了自然语言处理的世界,甚至改变了整个世界。虽然这种多功能模型的评估在表面上与之前生成模型的评估类似,但实际上它提出了一系列新的评估挑战和机遇。在本教程中,我们将从评估的基本构建块开始。本教程欢迎来自不同背景的人员,并假设他们对指标、数据集、提示和基准了解甚少。它将奠定基础并解释基本概念及其重要性,同时触及最近评估领域的主要观点和突破。我们还将比较传统评估方法(仍被广泛使用)与新开发的方法。我们将对比新旧方法,从在多任务基准上评估而不是在专用数据集上评估,到效率限制,以及从在上下文学习中测试稳定性和提示到使用模型本身作为评估指标。