Language models (LMs) are becoming the foundation for almost all major language technologies, but their capabilities, limitations, and risks are not well understood. We present Holistic Evaluation of Language Models (HELM) to improve the transparency of language models. First, we taxonomize the vast space of potential scenarios (i.e. use cases) and metrics (i.e. desiderata) that are of interest for LMs. Then we select a broad subset based on coverage and feasibility, noting what's missing or underrepresented (e.g. question answering for neglected English dialects, metrics for trustworthiness). Second, we adopt a multi-metric approach: We measure 7 metrics (accuracy, calibration, robustness, fairness, bias, toxicity, and efficiency) for each of 16 core scenarios when possible (87.5% of the time). This ensures metrics beyond accuracy don't fall to the wayside, and that trade-offs are clearly exposed. We also perform 7 targeted evaluations, based on 26 targeted scenarios, to analyze specific aspects (e.g. reasoning, disinformation). Third, we conduct a large-scale evaluation of 30 prominent language models (spanning open, limited-access, and closed models) on all 42 scenarios, 21 of which were not previously used in mainstream LM evaluation. Prior to HELM, models on average were evaluated on just 17.9% of the core HELM scenarios, with some prominent models not sharing a single scenario in common. We improve this to 96.0%: now all 30 models have been densely benchmarked on the same core scenarios and metrics under standardized conditions. Our evaluation surfaces 25 top-level findings. For full transparency, we release all raw model prompts and completions publicly for further analysis, as well as a general modular toolkit. We intend for HELM to be a living benchmark for the community, continuously updated with new scenarios, metrics, and models.
翻译:语言模型(LMS)正在成为几乎所有主要语言技术的基础,但是它们的能力、局限性和风险并没有被很好地理解。 我们展示了语言模型整体评估(HELM),以提高语言模型的透明度。 首先,我们分类了潜在情景(即使用案例)和指标(即desiderata)的巨大空间,这对LMs来说是有意义的。 然后,我们根据覆盖面和可行性选择了一个广泛的子集,注意到哪些是缺失的或代表不足的(例如,对被忽视的英语方言的回答问题、信任度的衡量标准)。 其次,我们采用了一种多度方法:我们测量了语言模型7度(准确性、校准、稳健、公平、偏差、毒性和效率),以尽可能对16种核心情景(即使用案例的87.5%的时间)进行测量。这确保了超出准确性的测量不会落到路边,而且交易结果也明显暴露出来。 我们还根据26个目标假设, 做了7项目标评估, 分析具体方面(例如推理、不透明性信息) 。第三,我们用一个大范围的模型来进行大规模评估, 在30种基础模型中, 基础模型上, 30种基础模型是公开的模型, 高级的,使用, 高级的, 20种模型是公开的模型, 高级的, 高级的, 高级的, 高级的, 高级的模型是使用, 高级的, 高级的, 高级的, 高级的, 高级的, 高级的模型, 高级的模型, 高级模型, 高级的, 高级的, 高级的 高级的 高级的 高级的 高级的 高级的, 高级的模型, 高级的模型, 高级的模型, 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的模型, 高级的 高级的 高级的 高级的 高级, 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的 高级的