【AAAI2024】在多样化指令下对大型语言模型的可控生成进行基准测试 - 专知VIP

会员服务 ·

17

AAAI 2024 · 大型语言模型 · 可控生成 ·

2024 年 1 月 5 日

【AAAI2024】在多样化指令下对大型语言模型的可控生成进行基准测试

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

尽管大型语言模型（LLMs）已经展现出令人印象深刻的遵循指令的能力，但目前尚不清楚它们能否以及在多大程度上响应可能包含在各种指令中的显式约束。因此，作为LLM对齐的一个重要方面，制定这样一套专门的指令集以及调查LLMs的相应行为变得非常重要。为了填补这一空白，我们提出了一个新的基准测试CoDI-Eval，以系统全面地评估LLMs对带有各种约束的指令的响应。我们构建了一个大型的约束属性指令集作为测试套件，专注于泛化和覆盖。具体来说，我们提倡一个指令多样化过程，以合成多种形式的约束表达，并且还仔细考虑了具有更细粒度子类别的候选任务分类。最后，我们自动化整个评估过程以促进进一步的发展。与现有的可控文本生成研究不同，CoDI-Eval首次将范围扩展到流行的遵循指令范式。我们对代表性的LLMs（例如ChatGPT，Vicuna）在CoDI-Eval上进行了广泛评估，揭示了它们在遵循具有特定约束的指令方面的局限性，以及开源和商业闭源LLMs之间仍然存在显著差距。我们相信这个基准测试将有助于研究如何提高LLMs对指令响应的可控性。我们的数据和代码可在 https://github.com/Xt-cyh/CoDI-Eval 上获取。

成为VIP会员查看完整内容

29

相关内容

AAAI 2024

【EMNLP2023】基于文本属性异构图的语言模型预训练

【EMNLP2023】基于文本属性异构图的语言模型预训练

专知会员服务

22+阅读 · 2023年10月21日

【NeurIPS 2023】通过贝叶斯方法使语言模型与人类偏好相对齐

【NeurIPS 2023】通过贝叶斯方法使语言模型与人类偏好相对齐

专知会员服务

30+阅读 · 2023年10月10日

【ICML2023】基于自然语言指令的受控文本生成

【ICML2023】基于自然语言指令的受控文本生成

专知会员服务

29+阅读 · 2023年4月28日

【NeurIPS2021】基于关联与识别的少样本目标检测

【NeurIPS2021】基于关联与识别的少样本目标检测

专知会员服务

24+阅读 · 2021年11月29日

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【ICML2021】面向个性化学习的模型融合

专知会员服务

23+阅读 · 2021年9月27日

【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架

【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架

专知会员服务

63+阅读 · 2021年4月21日

【AAAI2021】带有生成变换器（CGT）的对比学习三元组提取框架

【AAAI2021】带有生成变换器（CGT）的对比学习三元组提取框架

专知会员服务

24+阅读 · 2021年1月15日

【WSDM 2021】面向信息检索的预训练语言模型

专知会员服务

36+阅读 · 2020年11月29日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

42+阅读 · 2020年2月20日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

5+阅读 · 2023年4月11日

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

专知

2+阅读 · 2023年4月9日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知

5+阅读 · 2023年4月8日

【CVPR2023】DiffCollage:用扩散模型并行生成大量内容

【CVPR2023】DiffCollage:用扩散模型并行生成大量内容

专知

1+阅读 · 2023年4月4日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【三星AI-CVPR2020】增量小样本目标检测，Incremental Few-Shot Object Detection

【三星AI-CVPR2020】增量小样本目标检测，Incremental Few-Shot Object Detection

专知

55+阅读 · 2020年3月11日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

基于图论方法的DNA序列编码研究

国家自然科学基金

2+阅读 · 2016年12月31日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于编译的PCM内存损耗均衡方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

6+阅读 · 2014年12月31日

Mean estimation in the add-remove model of differential privacy

Arxiv

0+阅读 · 2024年2月19日

Ransomware detection using stacked autoencoder for feature selection

Arxiv

0+阅读 · 2024年2月17日

Deep adaptive sampling for surrogate modeling without labeled data

Arxiv

0+阅读 · 2024年2月17日

Multi-modal preference alignment remedies regression of visual instruction tuning on language model

Arxiv

1+阅读 · 2024年2月16日

Explaining generative diffusion models via visual analysis for interpretable decision-making process

Arxiv

0+阅读 · 2024年2月16日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

478+阅读 · 2023年3月31日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

Geometric multimodal representation learning

Arxiv

69+阅读 · 2022年9月7日

VIP会员

相关主题

大型语言模型

相关VIP内容

【EMNLP2023】基于文本属性异构图的语言模型预训练

【EMNLP2023】基于文本属性异构图的语言模型预训练

专知会员服务

22+阅读 · 2023年10月21日

【NeurIPS 2023】通过贝叶斯方法使语言模型与人类偏好相对齐

【NeurIPS 2023】通过贝叶斯方法使语言模型与人类偏好相对齐

专知会员服务

30+阅读 · 2023年10月10日

【ICML2023】基于自然语言指令的受控文本生成

【ICML2023】基于自然语言指令的受控文本生成

专知会员服务

29+阅读 · 2023年4月28日

【NeurIPS2021】基于关联与识别的少样本目标检测

【NeurIPS2021】基于关联与识别的少样本目标检测

专知会员服务

24+阅读 · 2021年11月29日

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【ICML2021】面向个性化学习的模型融合

专知会员服务

23+阅读 · 2021年9月27日

【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架

【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架

专知会员服务

63+阅读 · 2021年4月21日

【AAAI2021】带有生成变换器（CGT）的对比学习三元组提取框架

【AAAI2021】带有生成变换器（CGT）的对比学习三元组提取框架

专知会员服务

24+阅读 · 2021年1月15日

【WSDM 2021】面向信息检索的预训练语言模型

专知会员服务

36+阅读 · 2020年11月29日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

42+阅读 · 2020年2月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

5+阅读 · 2023年4月11日

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

专知

2+阅读 · 2023年4月9日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知

5+阅读 · 2023年4月8日

【CVPR2023】DiffCollage:用扩散模型并行生成大量内容

【CVPR2023】DiffCollage:用扩散模型并行生成大量内容

专知

1+阅读 · 2023年4月4日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【三星AI-CVPR2020】增量小样本目标检测，Incremental Few-Shot Object Detection

【三星AI-CVPR2020】增量小样本目标检测，Incremental Few-Shot Object Detection

专知

55+阅读 · 2020年3月11日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

基于图论方法的DNA序列编码研究

国家自然科学基金

2+阅读 · 2016年12月31日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于编译的PCM内存损耗均衡方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

6+阅读 · 2014年12月31日

相关论文

Mean estimation in the add-remove model of differential privacy

Arxiv

0+阅读 · 2024年2月19日

Ransomware detection using stacked autoencoder for feature selection

Arxiv

0+阅读 · 2024年2月17日

Deep adaptive sampling for surrogate modeling without labeled data

Arxiv

0+阅读 · 2024年2月17日

Multi-modal preference alignment remedies regression of visual instruction tuning on language model

Arxiv

1+阅读 · 2024年2月16日

Explaining generative diffusion models via visual analysis for interpretable decision-making process

Arxiv

0+阅读 · 2024年2月16日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

478+阅读 · 2023年3月31日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

Geometric multimodal representation learning

Arxiv

69+阅读 · 2022年9月7日

微信扫码咨询专知VIP会员