We introduce POLLUX, a comprehensive open-source benchmark designed to evaluate the generative capabilities of large language models (LLMs) in Russian. Our main contribution is a novel evaluation methodology that enhances the interpretability of LLM assessment. For each task type, we define a set of detailed criteria and develop a scoring protocol where models evaluate responses and provide justifications for their ratings. This enables transparent, criteria-driven evaluation beyond traditional resource-consuming, side-by-side human comparisons. POLLUX includes a detailed, fine-grained taxonomy of 35 task types covering diverse generative domains such as code generation, creative writing, and practical assistant use cases, totaling 2,100 manually crafted and professionally authored prompts. Each task is categorized by difficulty (easy/medium/hard), with experts constructing the dataset entirely from scratch. We also release a family of LLM-as-a-Judge (7B and 32B) evaluators trained for nuanced assessment of generative outputs. This approach provides scalable, interpretable evaluation and annotation tools for model development, effectively replacing costly and less precise human judgments.


翻译:本文介绍POLLUX——一个全面的开源基准测试,专为评估大语言模型(LLMs)在俄语环境下的生成能力而设计。我们的核心贡献在于提出了一种新颖的评估方法,该方法显著提升了LLM评估的可解释性。针对每种任务类型,我们定义了一套细化的评估标准,并开发了相应的评分协议:模型需对生成响应进行评价,并提供评分依据。这种方法实现了透明化、标准驱动的评估,超越了传统依赖资源密集型人工对比评估的局限。POLLUX包含一个精细划分的35类任务分类体系,涵盖代码生成、创意写作、实用助手场景等多样化生成领域,总计包含2,100个手工构建且由专业人士撰写的提示词。每项任务均按难度(简单/中等/困难)分类,且数据集完全由专家从零构建。我们还发布了一系列基于LLM-as-a-Judge理念的评估模型(7B与32B参数版本),这些模型经过专门训练,可对生成内容进行细致评估。该方法为模型开发提供了可扩展、可解释的评估与标注工具,有效替代了成本高昂且精度有限的人工评判。

0
下载
关闭预览

相关内容

NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
NLP自然语言处理(二)——基础文本分析
乐享数据DataScientists
12+阅读 · 2017年2月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关资讯
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
NLP自然语言处理(二)——基础文本分析
乐享数据DataScientists
12+阅读 · 2017年2月7日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员