随着大语言模型的广泛应用,针对大语言模型的评估工作变得至关重要。除了大语言模型在下游任务上的表现情况需要评估外,其存在的一些潜在风险更需要评估,例如大语言模型可能违背人类的价值观并且被恶意输入诱导引发安全问题等。本文通过分析传统软件、深度学习模型与大模型的共性与差异,借鉴传统软件测评和深度学习模型评估的指标体系,从大语言模型功能评估、性能评估、对齐评估和安全性评估几个维度对现有工作进行总结,并对大模型的评测基准进行介绍。最后依据现有研究与潜在的机遇和挑战,对大语言模型评估技术方向和发展前景进行了展望。

成为VIP会员查看完整内容
40

相关内容

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。
无人智能集群系统决策与控制研究进展
专知会员服务
62+阅读 · 3月20日
遥感影像小目标检测研究进展
专知会员服务
47+阅读 · 2023年3月17日
无人机视角下的目标检测研究进展
专知会员服务
110+阅读 · 2023年1月22日
专知会员服务
26+阅读 · 2021年8月24日
专知会员服务
85+阅读 · 2021年8月8日
专知会员服务
42+阅读 · 2021年4月23日
专知会员服务
61+阅读 · 2021年3月6日
基于深度学习的数据融合方法研究综述
专知会员服务
134+阅读 · 2020年12月10日
专知会员服务
57+阅读 · 2020年12月6日
深度学习可解释性研究进展
专知会员服务
97+阅读 · 2020年6月26日
「知识增强预训练语言模型」最新研究综述
专知
17+阅读 · 2022年11月18日
智能合约的形式化验证方法研究综述
专知
15+阅读 · 2021年5月8日
多模态情绪识别研究综述
专知
22+阅读 · 2020年12月21日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
基于图神经网络的知识图谱研究进展
AI科技评论
20+阅读 · 2020年8月31日
深度学习模型可解释性的研究进展
专知
25+阅读 · 2020年8月1日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
深度多模态表示学习综述论文,22页pdf
专知
30+阅读 · 2020年6月21日
贝叶斯机器学习前沿进展
架构文摘
13+阅读 · 2018年2月11日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
149+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
384+阅读 · 2023年3月31日
Arxiv
64+阅读 · 2023年3月26日
Arxiv
133+阅读 · 2023年3月24日
Arxiv
19+阅读 · 2023年3月17日
VIP会员
相关VIP内容
无人智能集群系统决策与控制研究进展
专知会员服务
62+阅读 · 3月20日
遥感影像小目标检测研究进展
专知会员服务
47+阅读 · 2023年3月17日
无人机视角下的目标检测研究进展
专知会员服务
110+阅读 · 2023年1月22日
专知会员服务
26+阅读 · 2021年8月24日
专知会员服务
85+阅读 · 2021年8月8日
专知会员服务
42+阅读 · 2021年4月23日
专知会员服务
61+阅读 · 2021年3月6日
基于深度学习的数据融合方法研究综述
专知会员服务
134+阅读 · 2020年12月10日
专知会员服务
57+阅读 · 2020年12月6日
深度学习可解释性研究进展
专知会员服务
97+阅读 · 2020年6月26日
相关资讯
「知识增强预训练语言模型」最新研究综述
专知
17+阅读 · 2022年11月18日
智能合约的形式化验证方法研究综述
专知
15+阅读 · 2021年5月8日
多模态情绪识别研究综述
专知
22+阅读 · 2020年12月21日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
基于图神经网络的知识图谱研究进展
AI科技评论
20+阅读 · 2020年8月31日
深度学习模型可解释性的研究进展
专知
25+阅读 · 2020年8月1日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
深度多模态表示学习综述论文,22页pdf
专知
30+阅读 · 2020年6月21日
贝叶斯机器学习前沿进展
架构文摘
13+阅读 · 2018年2月11日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员