大语言模型评估技术研究进展 - 专知VIP

会员服务 ·

38

大语言模型 · 大模型评估 ·

2024 年 7 月 9 日

大语言模型评估技术研究进展

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

随着大语言模型的广泛应用，针对大语言模型的评估工作变得至关重要。除了大语言模型在下游任务上的表现情况需要评估外，其存在的一些潜在风险更需要评估，例如大语言模型可能违背人类的价值观并且被恶意输入诱导引发安全问题等。本文通过分析传统软件、深度学习模型与大模型的共性与差异，借鉴传统软件测评和深度学习模型评估的指标体系，从大语言模型功能评估、性能评估、对齐评估和安全性评估几个维度对现有工作进行总结，并对大模型的评测基准进行介绍。最后依据现有研究与潜在的机遇和挑战，对大语言模型评估技术方向和发展前景进行了展望。

成为VIP会员查看完整内容

48

相关内容

大语言模型

大语言模型

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种自然语言任务，如文本摘要、问答、翻译等。2023年，大语言模型及其在人工智能领域的应用已成为全球科技研究的热点，其在规模上的增长尤为引人注目，参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处，更加深入地理解人类语言的复杂性。在过去的一年里，大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟，它将不断拓展其应用范围，为人类提供更加智能化和个性化的服务，进一步改善人们的生活和生产方式。

无人智能集群系统决策与控制研究进展

无人智能集群系统决策与控制研究进展

专知会员服务

75+阅读 · 2024年3月20日

遥感影像小目标检测研究进展

遥感影像小目标检测研究进展

专知会员服务

54+阅读 · 2023年3月17日

无人机视角下的目标检测研究进展

无人机视角下的目标检测研究进展

专知会员服务

125+阅读 · 2023年1月22日

基于弱监督学习的目标检测研究进展

专知会员服务

27+阅读 · 2021年8月24日

小目标检测研究进展

专知会员服务

91+阅读 · 2021年8月8日

多样性文本生成任务的研究进展

专知会员服务

43+阅读 · 2021年4月23日

基于深度学习的图像实例分割技术研究进展

专知会员服务

63+阅读 · 2021年3月6日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知会员服务

146+阅读 · 2020年12月10日

基于深度学习的文本分类技术研究进展

专知会员服务

58+阅读 · 2020年12月6日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知会员服务

103+阅读 · 2020年6月26日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

24+阅读 · 2020年12月21日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

36+阅读 · 2020年12月10日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

基于图神经网络的知识图谱研究进展

基于图神经网络的知识图谱研究进展

AI科技评论

21+阅读 · 2020年8月31日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

贝叶斯机器学习前沿进展

贝叶斯机器学习前沿进展

架构文摘

13+阅读 · 2018年2月11日

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

相互关联研发网络上风险级联传播建模及控制方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于超图的三维模型检索方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

非结构化管理决策大数据平台构建与关键技术

国家自然科学基金

11+阅读 · 2015年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

结构矩阵计算的扰动理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向隐私保护的云数据访问模型与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

223+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

86+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

493+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

63+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

177+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

VIP会员

相关主题

大语言模型

大模型评估

相关VIP内容

无人智能集群系统决策与控制研究进展

无人智能集群系统决策与控制研究进展

专知会员服务

75+阅读 · 2024年3月20日

遥感影像小目标检测研究进展

遥感影像小目标检测研究进展

专知会员服务

54+阅读 · 2023年3月17日

无人机视角下的目标检测研究进展

无人机视角下的目标检测研究进展

专知会员服务

125+阅读 · 2023年1月22日

基于弱监督学习的目标检测研究进展

专知会员服务

27+阅读 · 2021年8月24日

小目标检测研究进展

专知会员服务

91+阅读 · 2021年8月8日

多样性文本生成任务的研究进展

专知会员服务

43+阅读 · 2021年4月23日

基于深度学习的图像实例分割技术研究进展

专知会员服务

63+阅读 · 2021年3月6日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知会员服务

146+阅读 · 2020年12月10日

基于深度学习的文本分类技术研究进展

专知会员服务

58+阅读 · 2020年12月6日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知会员服务

103+阅读 · 2020年6月26日

热门VIP内容

开通专知VIP会员享更多权益服务

【牛津大学博士论文】将序列结构与几何结构融入深度神经网络

工程视角：影响战争进程的小型无人机

企业级AI应用开发：从技术选型到生产落地

AI生成代码缺陷综述

相关资讯

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

24+阅读 · 2020年12月21日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

36+阅读 · 2020年12月10日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

基于图神经网络的知识图谱研究进展

基于图神经网络的知识图谱研究进展

AI科技评论

21+阅读 · 2020年8月31日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

贝叶斯机器学习前沿进展

贝叶斯机器学习前沿进展

架构文摘

13+阅读 · 2018年2月11日

相关基金

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

相互关联研发网络上风险级联传播建模及控制方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于超图的三维模型检索方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

非结构化管理决策大数据平台构建与关键技术

国家自然科学基金

11+阅读 · 2015年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

结构矩阵计算的扰动理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向隐私保护的云数据访问模型与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

223+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

86+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

493+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

63+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

177+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员