【COLING教程】导航现代评估领域：大语言模型 (LLMs) 基准和框架的考量，181页ppt - 专知VIP

会员服务 ·

15

COLING 2024 · 大语言模型 · 大模型评估 ·

2024 年 5 月 31 日

【COLING教程】导航现代评估领域：大语言模型 (LLMs) 基准和框架的考量，181页ppt

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

通用语言模型改变了自然语言处理的世界，甚至改变了整个世界。虽然这种多功能模型的评估在表面上与之前生成模型的评估类似，但实际上它提出了一系列新的评估挑战和机遇。在本教程中，我们将从评估的基本构建块开始。本教程欢迎来自不同背景的人员，并假设他们对指标、数据集、提示和基准了解甚少。它将奠定基础并解释基本概念及其重要性，同时触及最近评估领域的主要观点和突破。我们还将比较传统评估方法（仍被广泛使用）与新开发的方法。我们将对比新旧方法，从在多任务基准上评估而不是在专用数据集上评估，到效率限制，以及从在上下文学习中测试稳定性和提示到使用模型本身作为评估指标。

成为VIP会员查看完整内容

28

相关内容

COLING 2024

【2023新书】理解大型语言模型：学习其基础概念和技术，166页pdf

【2023新书】理解大型语言模型：学习其基础概念和技术，166页pdf

专知会员服务

151+阅读 · 2023年12月5日

因果性与大型语言模型：一个新的前沿，51页ppt

因果性与大型语言模型：一个新的前沿，51页ppt

专知会员服务

79+阅读 · 2023年9月17日

【PODS2023】从查询语言的视角看图学习，111页ppt

【PODS2023】从查询语言的视角看图学习，111页ppt

专知会员服务

26+阅读 · 2023年7月22日

【WSDM2023教程】面向自然语言处理的知识增强方法，191页ppt

【WSDM2023教程】面向自然语言处理的知识增强方法，191页ppt

专知会员服务

25+阅读 · 2023年2月25日

【干货书】计算优化:实践中的成功，415页pdf

【干货书】计算优化:实践中的成功，415页pdf

专知会员服务

70+阅读 · 2022年12月29日

【经典书】计算机视觉中的结构化学习与预测，178页pdf

【经典书】计算机视觉中的结构化学习与预测，178页pdf

专知会员服务

51+阅读 · 2022年11月7日

【VLDB2022教程】查询图结构关系的现代技术:基础、系统实现和开放挑战，320页ppt

【VLDB2022教程】查询图结构关系的现代技术:基础、系统实现和开放挑战，320页ppt

专知会员服务

12+阅读 · 2022年11月3日

【IJCAI2022教程】可微分优化:将结构信息集成到训练流程中，173页ppt

【IJCAI2022教程】可微分优化:将结构信息集成到训练流程中，173页ppt

专知会员服务

24+阅读 · 2022年7月29日

【干货书】R语言探索性数据分析，218页pdf

【干货书】R语言探索性数据分析，218页pdf

专知会员服务

62+阅读 · 2021年9月14日

【AAAI2021教程】常识知识获取与表示，USC/斯坦福等学者讲述，250页ppt

【AAAI2021教程】常识知识获取与表示，USC/斯坦福等学者讲述，250页ppt

专知会员服务

61+阅读 · 2021年2月4日

【2022新书】机器学习中的统计建模:概念和应用，398页pdf

【2022新书】机器学习中的统计建模:概念和应用，398页pdf

专知

45+阅读 · 2022年11月5日

【2022新书】应用深度学习：工具、技术与实现，355页pdf

【2022新书】应用深度学习：工具、技术与实现，355页pdf

专知

42+阅读 · 2022年7月26日

【干货书】机器学习的金融风险管理与Python，194页pdf

【干货书】机器学习的金融风险管理与Python，194页pdf

专知

27+阅读 · 2022年7月1日

【干货书】实用时间序列分析：使用Python掌握时间序列数据处理、可视化和建模,238页pdf

【干货书】实用时间序列分析：使用Python掌握时间序列数据处理、可视化和建模,238页pdf

专知

29+阅读 · 2022年5月26日

【Manning新书】深度学习: 数学与算法模型，Inside Deep Learning，602页pdf

【Manning新书】深度学习: 数学与算法模型，Inside Deep Learning，602页pdf

专知

36+阅读 · 2022年4月24日

【干货书】概率，统计与数据，513页pdf

【干货书】概率，统计与数据，513页pdf

专知

36+阅读 · 2021年11月27日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

【干货书】R语言书: 编程和统计的第一课程，835页pdf

【干货书】R语言书: 编程和统计的第一课程，835页pdf

专知

39+阅读 · 2020年5月9日

深度学习自然语言处理概述，116页ppt，Jiří Materna

深度学习自然语言处理概述，116页ppt，Jiří Materna

专知

37+阅读 · 2020年3月10日

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

企业内正式与非正式网络互动及其对组织适应性影响和权变机理研究：CAS视角的分析

国家自然科学基金

1+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

外包与云计算情境下IT业务匹配研究：适应性结构化理论视角

国家自然科学基金

2+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

475+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

173+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

大语言模型

大模型评估

相关VIP内容

【2023新书】理解大型语言模型：学习其基础概念和技术，166页pdf

【2023新书】理解大型语言模型：学习其基础概念和技术，166页pdf

专知会员服务

151+阅读 · 2023年12月5日

因果性与大型语言模型：一个新的前沿，51页ppt

因果性与大型语言模型：一个新的前沿，51页ppt

专知会员服务

79+阅读 · 2023年9月17日

【PODS2023】从查询语言的视角看图学习，111页ppt

【PODS2023】从查询语言的视角看图学习，111页ppt

专知会员服务

26+阅读 · 2023年7月22日

【WSDM2023教程】面向自然语言处理的知识增强方法，191页ppt

【WSDM2023教程】面向自然语言处理的知识增强方法，191页ppt

专知会员服务

25+阅读 · 2023年2月25日

【干货书】计算优化:实践中的成功，415页pdf

【干货书】计算优化:实践中的成功，415页pdf

专知会员服务

70+阅读 · 2022年12月29日

【经典书】计算机视觉中的结构化学习与预测，178页pdf

【经典书】计算机视觉中的结构化学习与预测，178页pdf

专知会员服务

51+阅读 · 2022年11月7日

【VLDB2022教程】查询图结构关系的现代技术:基础、系统实现和开放挑战，320页ppt

【VLDB2022教程】查询图结构关系的现代技术:基础、系统实现和开放挑战，320页ppt

专知会员服务

12+阅读 · 2022年11月3日

【IJCAI2022教程】可微分优化:将结构信息集成到训练流程中，173页ppt

【IJCAI2022教程】可微分优化:将结构信息集成到训练流程中，173页ppt

专知会员服务

24+阅读 · 2022年7月29日

【干货书】R语言探索性数据分析，218页pdf

【干货书】R语言探索性数据分析，218页pdf

专知会员服务

62+阅读 · 2021年9月14日

【AAAI2021教程】常识知识获取与表示，USC/斯坦福等学者讲述，250页ppt

【AAAI2021教程】常识知识获取与表示，USC/斯坦福等学者讲述，250页ppt

专知会员服务

61+阅读 · 2021年2月4日

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军徒步机动作战条令手册》最新168页

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

军事后勤数字化未来展望

《美海军后勤体系整合与创新挑战》最新报告

相关资讯

【2022新书】机器学习中的统计建模:概念和应用，398页pdf

【2022新书】机器学习中的统计建模:概念和应用，398页pdf

专知

45+阅读 · 2022年11月5日

【2022新书】应用深度学习：工具、技术与实现，355页pdf

【2022新书】应用深度学习：工具、技术与实现，355页pdf

专知

42+阅读 · 2022年7月26日

【干货书】机器学习的金融风险管理与Python，194页pdf

【干货书】机器学习的金融风险管理与Python，194页pdf

专知

27+阅读 · 2022年7月1日

【干货书】实用时间序列分析：使用Python掌握时间序列数据处理、可视化和建模,238页pdf

【干货书】实用时间序列分析：使用Python掌握时间序列数据处理、可视化和建模,238页pdf

专知

29+阅读 · 2022年5月26日

【Manning新书】深度学习: 数学与算法模型，Inside Deep Learning，602页pdf

【Manning新书】深度学习: 数学与算法模型，Inside Deep Learning，602页pdf

专知

36+阅读 · 2022年4月24日

【干货书】概率，统计与数据，513页pdf

【干货书】概率，统计与数据，513页pdf

专知

36+阅读 · 2021年11月27日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

【干货书】R语言书: 编程和统计的第一课程，835页pdf

【干货书】R语言书: 编程和统计的第一课程，835页pdf

专知

39+阅读 · 2020年5月9日

深度学习自然语言处理概述，116页ppt，Jiří Materna

深度学习自然语言处理概述，116页ppt，Jiří Materna

专知

37+阅读 · 2020年3月10日

相关基金

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

企业内正式与非正式网络互动及其对组织适应性影响和权变机理研究：CAS视角的分析

国家自然科学基金

1+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

外包与云计算情境下IT业务匹配研究：适应性结构化理论视角

国家自然科学基金

2+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

475+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

173+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员