尽管大型语言模型(LLMs)已经展现出令人印象深刻的遵循指令的能力,但目前尚不清楚它们能否以及在多大程度上响应可能包含在各种指令中的显式约束。因此,作为LLM对齐的一个重要方面,制定这样一套专门的指令集以及调查LLMs的相应行为变得非常重要。为了填补这一空白,我们提出了一个新的基准测试CoDI-Eval,以系统全面地评估LLMs对带有各种约束的指令的响应。我们构建了一个大型的约束属性指令集作为测试套件,专注于泛化和覆盖。具体来说,我们提倡一个指令多样化过程,以合成多种形式的约束表达,并且还仔细考虑了具有更细粒度子类别的候选任务分类。最后,我们自动化整个评估过程以促进进一步的发展。与现有的可控文本生成研究不同,CoDI-Eval首次将范围扩展到流行的遵循指令范式。我们对代表性的LLMs(例如ChatGPT,Vicuna)在CoDI-Eval上进行了广泛评估,揭示了它们在遵循具有特定约束的指令方面的局限性,以及开源和商业闭源LLMs之间仍然存在显著差距。我们相信这个基准测试将有助于研究如何提高LLMs对指令响应的可控性。我们的数据和代码可在 https://github.com/Xt-cyh/CoDI-Eval 上获取。