随着大型语言模型 (LLMs) 在处理复杂任务方面变得越来越娴熟,评估集也必须跟上这些进展,以确保其具有足够的区分度。广泛应用于教育评估中的项目区分度 (ID) 理论衡量的是单个测试项目区分高低表现者的能力。受该理论的启发,我们提出了一种基于项目区分度的提示生成框架,用于评估 LLMs,确保评估集能够根据模型能力不断更新和改进。我们的数据生成框架既重视广度又重视特异性,能够生成全面评估 LLMs 能力的提示,同时揭示模型之间有意义的性能差异,从而有效区分它们在各类任务和领域中的相对强项和弱项。 为了生成高质量数据,我们在泛化框架中引入了自我修正机制,并开发了两个模型来预测提示的区分度和难度评分,以便促进我们的数据生成框架,为评估数据生成研究贡献了有价值的工具。我们将生成的数据应用于评估五个现今最先进的模型。我们的数据平均得分为 51.92,方差为 10.06。相比之下,之前的工作(如 SELF-INSTRUCT 和 WizardLM)平均得分超过 67,方差低于 3.2。结果表明,我们框架生成的数据相比之前的工作更加具有挑战性和区分度。我们将发布包含超过 3,000 个精心设计的提示的数据集,以促进 LLMs 评估研究的发展。

成为VIP会员查看完整内容
13

相关内容

【NeurIPS2023】朝向自解释的图级异常检测
专知会员服务
29+阅读 · 2023年10月26日
专知会员服务
14+阅读 · 2021年6月26日
【CVPR2021】多实例主动学习目标检测
专知会员服务
41+阅读 · 2021年4月18日
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2008年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
147+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员