尽管大型语言模型(LLMs)已经展现出令人印象深刻的遵循指令的能力,但目前尚不清楚它们能否以及在多大程度上响应可能包含在各种指令中的显式约束。因此,作为LLM对齐的一个重要方面,制定这样一套专门的指令集以及调查LLMs的相应行为变得非常重要。为了填补这一空白,我们提出了一个新的基准测试CoDI-Eval,以系统全面地评估LLMs对带有各种约束的指令的响应。我们构建了一个大型的约束属性指令集作为测试套件,专注于泛化和覆盖。具体来说,我们提倡一个指令多样化过程,以合成多种形式的约束表达,并且还仔细考虑了具有更细粒度子类别的候选任务分类。最后,我们自动化整个评估过程以促进进一步的发展。与现有的可控文本生成研究不同,CoDI-Eval首次将范围扩展到流行的遵循指令范式。我们对代表性的LLMs(例如ChatGPT,Vicuna)在CoDI-Eval上进行了广泛评估,揭示了它们在遵循具有特定约束的指令方面的局限性,以及开源和商业闭源LLMs之间仍然存在显著差距。我们相信这个基准测试将有助于研究如何提高LLMs对指令响应的可控性。我们的数据和代码可在 https://github.com/Xt-cyh/CoDI-Eval 上获取。

成为VIP会员查看完整内容
28

相关内容

【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
21+阅读 · 2023年10月21日
【ICML2023】基于自然语言指令的受控文本生成
专知会员服务
28+阅读 · 2023年4月28日
【NeurIPS2021】基于关联与识别的少样本目标检测
专知会员服务
21+阅读 · 2021年11月29日
专知会员服务
12+阅读 · 2021年10月11日
专知会员服务
22+阅读 · 2021年9月27日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
61+阅读 · 2021年4月21日
专知会员服务
35+阅读 · 2020年11月29日
专知会员服务
41+阅读 · 2020年2月20日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
VIP会员
相关VIP内容
【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
21+阅读 · 2023年10月21日
【ICML2023】基于自然语言指令的受控文本生成
专知会员服务
28+阅读 · 2023年4月28日
【NeurIPS2021】基于关联与识别的少样本目标检测
专知会员服务
21+阅读 · 2021年11月29日
专知会员服务
12+阅读 · 2021年10月11日
专知会员服务
22+阅读 · 2021年9月27日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
61+阅读 · 2021年4月21日
专知会员服务
35+阅读 · 2020年11月29日
专知会员服务
41+阅读 · 2020年2月20日
相关基金
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员