【NeurIPS2024】IDGen：基于项目区分度的提示生成用于大型语言模型评估 - 专知VIP

会员服务 ·

7

NeurIPS 2024 · 大型语言模型 · 大模型评估 ·

2024 年 9 月 30 日

【NeurIPS2024】IDGen：基于项目区分度的提示生成用于大型语言模型评估

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

随着大型语言模型 (LLMs) 在处理复杂任务方面变得越来越娴熟，评估集也必须跟上这些进展，以确保其具有足够的区分度。广泛应用于教育评估中的项目区分度 (ID) 理论衡量的是单个测试项目区分高低表现者的能力。受该理论的启发，我们提出了一种基于项目区分度的提示生成框架，用于评估 LLMs，确保评估集能够根据模型能力不断更新和改进。我们的数据生成框架既重视广度又重视特异性，能够生成全面评估 LLMs 能力的提示，同时揭示模型之间有意义的性能差异，从而有效区分它们在各类任务和领域中的相对强项和弱项。为了生成高质量数据，我们在泛化框架中引入了自我修正机制，并开发了两个模型来预测提示的区分度和难度评分，以便促进我们的数据生成框架，为评估数据生成研究贡献了有价值的工具。我们将生成的数据应用于评估五个现今最先进的模型。我们的数据平均得分为 51.92，方差为 10.06。相比之下，之前的工作（如 SELF-INSTRUCT 和 WizardLM）平均得分超过 67，方差低于 3.2。结果表明，我们框架生成的数据相比之前的工作更加具有挑战性和区分度。我们将发布包含超过 3,000 个精心设计的提示的数据集，以促进 LLMs 评估研究的发展。

成为VIP会员查看完整内容

14

相关内容

NeurIPS 2024

【NeurIPS2024】SAFE: 慢速与快速参数高效调优用于基于预训练模型的持续学习

【NeurIPS2024】SAFE: 慢速与快速参数高效调优用于基于预训练模型的持续学习

专知会员服务

18+阅读 · 2024年11月5日

【NeurIPS2024】PACE：将参数高效微调中的泛化与一致性正则化结合起来

【NeurIPS2024】PACE：将参数高效微调中的泛化与一致性正则化结合起来

专知会员服务

14+阅读 · 2024年9月26日

【TPAMI2024】增强视频-语言表示的结构时空对齐方法

【TPAMI2024】增强视频-语言表示的结构时空对齐方法

专知会员服务

24+阅读 · 2024年6月30日

【ICML2024】通过代理基于的不确定性估计提高语言模型中的指令遵循性

【ICML2024】通过代理基于的不确定性估计提高语言模型中的指令遵循性

专知会员服务

11+阅读 · 2024年5月13日

【NeurIPS2023】元适配器:面向视觉-语言模型的在线少样本学习器

【NeurIPS2023】元适配器:面向视觉-语言模型的在线少样本学习器

专知会员服务

24+阅读 · 2023年11月8日

【NeurIPS2023】SimMMDG：一个简单而有效的多模态领域泛化框架

【NeurIPS2023】SimMMDG：一个简单而有效的多模态领域泛化框架

专知会员服务

46+阅读 · 2023年10月31日

【NeurIPS2023】朝向自解释的图级异常检测

【NeurIPS2023】朝向自解释的图级异常检测

专知会员服务

30+阅读 · 2023年10月26日

【KDD2021】高效数据特定模型搜索的协同过滤

专知会员服务

15+阅读 · 2021年6月26日

【CVPR2021】多实例主动学习目标检测

【CVPR2021】多实例主动学习目标检测

专知会员服务

43+阅读 · 2021年4月18日

【NeurIPS2020】通过最大编码率降低原理学习多样和有判别性的表示

【NeurIPS2020】通过最大编码率降低原理学习多样和有判别性的表示

专知会员服务

15+阅读 · 2020年9月30日

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

20+阅读 · 2022年12月11日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

20+阅读 · 2020年5月26日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

12+阅读 · 2020年3月31日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【NeurIPS 2019】vGraph：联合节点检测与节点表示生成模型

【NeurIPS 2019】vGraph：联合节点检测与节点表示生成模型

专知

23+阅读 · 2019年12月21日

核心化算法中的新技术研究

国家自然科学基金

8+阅读 · 2017年12月31日

HDFS读、写性能概率建模与模型迁移方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

45+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

6+阅读 · 2014年12月31日

Biot模型基于有限元离散的多重网格算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

105+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

219+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

487+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

151+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

62+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

80+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

176+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

VIP会员

相关主题

大型语言模型

大模型评估

相关VIP内容

【NeurIPS2024】SAFE: 慢速与快速参数高效调优用于基于预训练模型的持续学习

【NeurIPS2024】SAFE: 慢速与快速参数高效调优用于基于预训练模型的持续学习

专知会员服务

18+阅读 · 2024年11月5日

【NeurIPS2024】PACE：将参数高效微调中的泛化与一致性正则化结合起来

【NeurIPS2024】PACE：将参数高效微调中的泛化与一致性正则化结合起来

专知会员服务

14+阅读 · 2024年9月26日

【TPAMI2024】增强视频-语言表示的结构时空对齐方法

【TPAMI2024】增强视频-语言表示的结构时空对齐方法

专知会员服务

24+阅读 · 2024年6月30日

【ICML2024】通过代理基于的不确定性估计提高语言模型中的指令遵循性

【ICML2024】通过代理基于的不确定性估计提高语言模型中的指令遵循性

专知会员服务

11+阅读 · 2024年5月13日

【NeurIPS2023】元适配器:面向视觉-语言模型的在线少样本学习器

【NeurIPS2023】元适配器:面向视觉-语言模型的在线少样本学习器

专知会员服务

24+阅读 · 2023年11月8日

【NeurIPS2023】SimMMDG：一个简单而有效的多模态领域泛化框架

【NeurIPS2023】SimMMDG：一个简单而有效的多模态领域泛化框架

专知会员服务

46+阅读 · 2023年10月31日

【NeurIPS2023】朝向自解释的图级异常检测

【NeurIPS2023】朝向自解释的图级异常检测

专知会员服务

30+阅读 · 2023年10月26日

【KDD2021】高效数据特定模型搜索的协同过滤

专知会员服务

15+阅读 · 2021年6月26日

【CVPR2021】多实例主动学习目标检测

【CVPR2021】多实例主动学习目标检测

专知会员服务

43+阅读 · 2021年4月18日

【NeurIPS2020】通过最大编码率降低原理学习多样和有判别性的表示

【NeurIPS2020】通过最大编码率降低原理学习多样和有判别性的表示

专知会员服务

15+阅读 · 2020年9月30日

热门VIP内容

开通专知VIP会员享更多权益服务

小规模训练指南：打造世界级大语言模型的关键方法

无人机编队飞行：复杂环境中作战的策略、挑战与应用

大模型APP，AI时代第一个爆款

从数据中心视角出发的高效大语言模型训练综述

相关资讯

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

20+阅读 · 2022年12月11日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

20+阅读 · 2020年5月26日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

12+阅读 · 2020年3月31日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【NeurIPS 2019】vGraph：联合节点检测与节点表示生成模型

【NeurIPS 2019】vGraph：联合节点检测与节点表示生成模型

专知

23+阅读 · 2019年12月21日

相关基金

核心化算法中的新技术研究

国家自然科学基金

8+阅读 · 2017年12月31日

HDFS读、写性能概率建模与模型迁移方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

45+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

6+阅读 · 2014年12月31日

Biot模型基于有限元离散的多重网格算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

105+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

219+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

487+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

151+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

62+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

80+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

176+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员