通用语言模型改变了自然语言处理的世界,甚至改变了整个世界。虽然这种多功能模型的评估在表面上与之前生成模型的评估类似,但实际上它提出了一系列新的评估挑战和机遇。在本教程中,我们将从评估的基本构建块开始。本教程欢迎来自不同背景的人员,并假设他们对指标、数据集、提示和基准了解甚少。它将奠定基础并解释基本概念及其重要性,同时触及最近评估领域的主要观点和突破。我们还将比较传统评估方法(仍被广泛使用)与新开发的方法。我们将对比新旧方法,从在多任务基准上评估而不是在专用数据集上评估,到效率限制,以及从在上下文学习中测试稳定性和提示到使用模型本身作为评估指标。

成为VIP会员查看完整内容
27

相关内容

因果性与大型语言模型:一个新的前沿,51页ppt
专知会员服务
78+阅读 · 2023年9月17日
【PODS2023】从查询语言的视角看图学习,111页ppt
专知会员服务
25+阅读 · 2023年7月22日
【干货书】计算优化:实践中的成功,415页pdf
专知会员服务
67+阅读 · 2022年12月29日
【经典书】计算机视觉中的结构化学习与预测,178页pdf
专知会员服务
47+阅读 · 2022年11月7日
【干货书】R语言探索性数据分析,218页pdf
专知会员服务
61+阅读 · 2021年9月14日
【干货书】概率,统计与数据,513页pdf
专知
34+阅读 · 2021年11月27日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
155+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
397+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
137+阅读 · 2023年3月24日
Arxiv
19+阅读 · 2023年3月17日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员