清华大学《《SuperBench大模型综合能力评测报告》发布 - 专知VIP

会员服务 ·

26

大模型 · SuperBench ·

清华大学《《SuperBench大模型综合能力评测报告》发布

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在2023年的「百模大战」中，众多实践者推出了各类模型，这些模型有的是原创的，有的是针对开源模型进行微调的；有些是通用的，有些则是行业特定的。如何能合理地评价这些模型的能力，成为关键问题。

尽管国内外存在多个模型能力评测榜单，但它们的质量参差不齐，排名差异显著，这主要是因为评测数据和测试方法尚不成熟和科学。我们认为，好的评测方法应当具备开放性、动态性、科学性和权威性。

为提供客观、科学的评测标准，清华大学基础模型研究中心联合中关村实验室研制了SuperBench大模型综合能力评测框架，旨在推动大模型技术、应用和生态的健康发展。

最近，2024年3月版《SuperBench大模型综合能力评测报告》正式发布。

评测共包含了14个海内外具有代表性的模型。其中，对于闭源模型，选取API和网页两种调用模式中得分较高的一种进行评测。

根据评测结果，可以得出以下几个主要结论：

● 整体来说，GPT-4系列模型和Claude-3等国外模型在多个能力上依然处于领先地位，国内头部大模型GLM-4和文心一言4.0表现亮眼，与国际一流模型水平接近，且差距已经逐渐缩小。

● 国外大模型中，GPT-4系列模型表现稳定，Claude-3也展现了较强的综合实力，在语义理解和作为智能体两项能力评测中更是获得了榜首，跻身国际一流模型。

● 国内大模型中，GLM-4和文心一言4.0在本次评测中表现最好，为国内头部模型；通义千问2.1、Abab6、moonshot网页版以及qwen1.5-72b-chat紧随其后，在部分能力评测中亦有不俗表现；但是国内大模型对比国际一流模型在代码编写、作为智能体两个能力上依然有较大差距，国内模型仍需努力。

https://cloud.tsinghua.edu.cn/f/47717c3407bb4d279e0c/

成为VIP会员查看完整内容

45

相关内容

大模型

大模型是基于海量多源数据打造的预训练模型，是对原有算法模型的技术升级和产品迭代，用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习，以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。

《全球产业创新生态发展报告（2023年）——数字创新高地全球图景与中国位势》发布

《全球产业创新生态发展报告（2023年）——数字创新高地全球图景与中国位势》发布

专知会员服务

24+阅读 · 1月24日

102页pdf！《大模型合规白皮书》上海人工智能研究院发布

102页pdf！《大模型合规白皮书》上海人工智能研究院发布

专知会员服务

115+阅读 · 2023年11月30日

国家首部《“东数西算”算力报告》发布，

国家首部《“东数西算”算力报告》发布，

专知会员服务

38+阅读 · 2023年11月15日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

149+阅读 · 2023年8月8日

中方发布《地球大数据支撑可持续发展目标报告（2022）》

中方发布《地球大数据支撑可持续发展目标报告（2022）》

专知会员服务

18+阅读 · 2022年10月2日

企业数字化人才发展白皮书：未来已来，时不我待，32页ppt

企业数字化人才发展白皮书：未来已来，时不我待，32页ppt

专知会员服务

45+阅读 · 2022年7月2日

《“工业互联网平台+数字仿真”发展白皮书》发布（附下载）

专知会员服务

109+阅读 · 2021年9月13日

央行发布《人工智能算法金融应用评价规范》，28页pdf

央行发布《人工智能算法金融应用评价规范》，28页pdf

专知会员服务

74+阅读 · 2021年5月2日

百度德勤管理咨询联合发布《知识中台白皮书》

专知会员服务

75+阅读 · 2020年12月19日

中科院信工所发布《深度学习系统的隐私与安全》综述论文，187篇文献总结

中科院信工所发布《深度学习系统的隐私与安全》综述论文，187篇文献总结

专知会员服务

100+阅读 · 2019年12月5日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

28+阅读 · 2022年11月12日

《城市大脑发展白皮书（2022）》发布！56页pdf

《城市大脑发展白皮书（2022）》发布！56页pdf

专知

11+阅读 · 2022年1月8日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

首届事理图谱研讨会7月20日在哈尔滨工业大学计算机学院成功举办

首届事理图谱研讨会7月20日在哈尔滨工业大学计算机学院成功举办

哈工大SCIR

13+阅读 · 2019年7月22日

CCF发布2017-2018中国计算机科学技术发展报告

CCF发布2017-2018中国计算机科学技术发展报告

中国计算机学会

17+阅读 · 2018年11月7日

麻省理工发布2018年全球十大突破性技术

麻省理工发布2018年全球十大突破性技术

算法与数学之美

12+阅读 · 2018年9月13日

孟小峰：机器学习与数据库技术融合

孟小峰：机器学习与数据库技术融合

计算机研究与发展

14+阅读 · 2018年9月6日

清华发布《2018自然语言处理研究报告》

清华发布《2018自然语言处理研究报告》

智能交通技术

16+阅读 · 2018年8月4日

《人工智能标准化白皮书（2018版）》发布|附下载

《人工智能标准化白皮书（2018版）》发布|附下载

人工智能学家

17+阅读 · 2018年1月21日

安全牛发布《威胁情报市场指南》报告

安全牛发布《威胁情报市场指南》报告

安全牛

12+阅读 · 2017年7月10日

面向浅水波大气动力方程求解器的可重构计算方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

操作风险动态量化方法研究：从微观机构到宏观系统

国家自然科学基金

1+阅读 · 2015年12月31日

众筹募资人与平台信息披露问题研究：基于信任及利益相关者理论

国家自然科学基金

1+阅读 · 2015年12月31日

基于草图语义部件的三维模型检索技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

2015年西部地区统计学青年教师暑期培训

国家自然科学基金

1+阅读 · 2015年7月19日

面向大数据的信息可视化设计方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

大数据背景下的商业模式创新机制研究

国家自然科学基金

5+阅读 · 2014年12月31日

中国主要城市创新职能结构与空间优化研究

国家自然科学基金

0+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

接力创新中大数据价值的评估与分配研究

国家自然科学基金

1+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

153+阅读 · 2023年4月20日

Choose Your Weapon: Survival Strategies for Depressed AI Academics

Arxiv

31+阅读 · 2023年3月31日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

395+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

120+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

57+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

65+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

137+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

44+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

74+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

19+阅读 · 2023年3月17日

VIP会员

相关主题

相关VIP内容

《全球产业创新生态发展报告（2023年）——数字创新高地全球图景与中国位势》发布

《全球产业创新生态发展报告（2023年）——数字创新高地全球图景与中国位势》发布

专知会员服务

24+阅读 · 1月24日

102页pdf！《大模型合规白皮书》上海人工智能研究院发布

102页pdf！《大模型合规白皮书》上海人工智能研究院发布

专知会员服务

115+阅读 · 2023年11月30日

国家首部《“东数西算”算力报告》发布，

国家首部《“东数西算”算力报告》发布，

专知会员服务

38+阅读 · 2023年11月15日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

149+阅读 · 2023年8月8日

中方发布《地球大数据支撑可持续发展目标报告（2022）》

中方发布《地球大数据支撑可持续发展目标报告（2022）》

专知会员服务

18+阅读 · 2022年10月2日

企业数字化人才发展白皮书：未来已来，时不我待，32页ppt

企业数字化人才发展白皮书：未来已来，时不我待，32页ppt

专知会员服务

45+阅读 · 2022年7月2日

《“工业互联网平台+数字仿真”发展白皮书》发布（附下载）

专知会员服务

109+阅读 · 2021年9月13日

央行发布《人工智能算法金融应用评价规范》，28页pdf

央行发布《人工智能算法金融应用评价规范》，28页pdf

专知会员服务

74+阅读 · 2021年5月2日

百度德勤管理咨询联合发布《知识中台白皮书》

专知会员服务

75+阅读 · 2020年12月19日

中科院信工所发布《深度学习系统的隐私与安全》综述论文，187篇文献总结

中科院信工所发布《深度学习系统的隐私与安全》综述论文，187篇文献总结

专知会员服务

100+阅读 · 2019年12月5日

热门VIP内容

相关资讯

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

28+阅读 · 2022年11月12日

《城市大脑发展白皮书（2022）》发布！56页pdf

《城市大脑发展白皮书（2022）》发布！56页pdf

专知

11+阅读 · 2022年1月8日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

首届事理图谱研讨会7月20日在哈尔滨工业大学计算机学院成功举办

首届事理图谱研讨会7月20日在哈尔滨工业大学计算机学院成功举办

哈工大SCIR

13+阅读 · 2019年7月22日

CCF发布2017-2018中国计算机科学技术发展报告

CCF发布2017-2018中国计算机科学技术发展报告

中国计算机学会

17+阅读 · 2018年11月7日

麻省理工发布2018年全球十大突破性技术

麻省理工发布2018年全球十大突破性技术

算法与数学之美

12+阅读 · 2018年9月13日

孟小峰：机器学习与数据库技术融合

孟小峰：机器学习与数据库技术融合

计算机研究与发展

14+阅读 · 2018年9月6日

清华发布《2018自然语言处理研究报告》

清华发布《2018自然语言处理研究报告》

智能交通技术

16+阅读 · 2018年8月4日

《人工智能标准化白皮书（2018版）》发布|附下载

《人工智能标准化白皮书（2018版）》发布|附下载

人工智能学家

17+阅读 · 2018年1月21日

安全牛发布《威胁情报市场指南》报告

安全牛发布《威胁情报市场指南》报告

安全牛

12+阅读 · 2017年7月10日

相关基金

面向浅水波大气动力方程求解器的可重构计算方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

操作风险动态量化方法研究：从微观机构到宏观系统

国家自然科学基金

1+阅读 · 2015年12月31日

众筹募资人与平台信息披露问题研究：基于信任及利益相关者理论

国家自然科学基金

1+阅读 · 2015年12月31日

基于草图语义部件的三维模型检索技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

2015年西部地区统计学青年教师暑期培训

国家自然科学基金

1+阅读 · 2015年7月19日

面向大数据的信息可视化设计方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

大数据背景下的商业模式创新机制研究

国家自然科学基金

5+阅读 · 2014年12月31日

中国主要城市创新职能结构与空间优化研究

国家自然科学基金

0+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

接力创新中大数据价值的评估与分配研究

国家自然科学基金

1+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

153+阅读 · 2023年4月20日

Choose Your Weapon: Survival Strategies for Depressed AI Academics

Arxiv

31+阅读 · 2023年3月31日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

395+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

120+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

57+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

65+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

137+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

44+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

74+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

19+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员