2024年中国大语言模型能力评析（一）：评测方法论与综合评测结果-AI变革行业创新发展 - 专知VIP

会员服务 ·

22

大语言模型 · 大模型评测 ·

2024 年 6 月 27 日

2024年中国大语言模型能力评析（一）：评测方法论与综合评测结果-AI变革行业创新发展

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

从用户实际使用角度出发，归总出五大一级评测维度，以构建全面科学的评估体系

　　本次大语言模型评测以用户使用体验和实际使用价值为基准，综合考量知识能力、语言能力、道德风险、行业能力及综合能力五大核心一级维度，并进一步细化为风险信息识别、逻辑推理、类比迁移、角色扮演等多个二级维度，以构建全面、科学的评估体系，确保准确衡量模型的优势与不足。　　　2024年大语言模型综合评测显示，国际领先模型在通用基础能力和专业应用能力上略优于中国领先模型，其中文心、GPT3.5和通义千问位居第一梯队　　　根据2024年大语言模型综合评测结果来看，国际领先的模型整体水平略优于中国领先大语言模型的均线。根据国际大语言模型均线、中国大语言模型均线划分出了三个梯队，第一梯队包括文心、GPT3.5以及通义千问；第二梯队包括360智脑、商汤商量、智谱AI、中科闻歌雅意以及腾讯混元；第三梯队包括Minimax、面壁智能、紫东太初、百川智能以及昆仑天工。　

成为VIP会员查看完整内容

42

相关内容

大语言模型

大语言模型

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种自然语言任务，如文本摘要、问答、翻译等。2023年，大语言模型及其在人工智能领域的应用已成为全球科技研究的热点，其在规模上的增长尤为引人注目，参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处，更加深入地理解人类语言的复杂性。在过去的一年里，大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟，它将不断拓展其应用范围，为人类提供更加智能化和个性化的服务，进一步改善人们的生活和生产方式。

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

专知会员服务

24+阅读 · 2024年5月19日

重磅！121页《大模型技术》中国人工智能系列白皮书（附下载）

重磅！121页《大模型技术》中国人工智能系列白皮书（附下载）

专知会员服务

510+阅读 · 2023年10月1日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

【ChatGPT系列报告】大模型发展趋势

【ChatGPT系列报告】大模型发展趋势

专知会员服务

112+阅读 · 2023年7月5日

【ChatGPT系列报告】AI+办公：智能化时代来临

【ChatGPT系列报告】AI+办公：智能化时代来临

专知会员服务

91+阅读 · 2023年4月27日

ChatGPT大模型work三个要点是什么？谷歌JasonWei最新《大型语言模型的缩放、涌现和推理》报告，附Slides与视频

ChatGPT大模型work三个要点是什么？谷歌JasonWei最新《大型语言模型的缩放、涌现和推理》报告，附Slides与视频

专知会员服务

100+阅读 · 2023年4月14日

北航《深度学习事件抽取》文献综述和当前趋势

北航《深度学习事件抽取》文献综述和当前趋势

专知会员服务

87+阅读 · 2021年7月6日

【IJCAI2021】复杂知识库问答研究: 方法、挑战与对策

【IJCAI2021】复杂知识库问答研究: 方法、挑战与对策

专知会员服务

57+阅读 · 2021年5月27日

Gary Marcus力作：AI的下个十年，向‘强’人工智能迈进的四步战略（附59页论文下载）

Gary Marcus力作：AI的下个十年，向‘强’人工智能迈进的四步战略（附59页论文下载）

专知会员服务

39+阅读 · 2020年2月20日

【北京智源大会2019】神经网络的优化Optimization for Overparametrized Deep Neural Networks，北京大学 | 王立威

【北京智源大会2019】神经网络的优化Optimization for Overparametrized Deep Neural Networks，北京大学 | 王立威

专知会员服务

23+阅读 · 2019年11月21日

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

专知

12+阅读 · 2022年4月14日

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

专知

22+阅读 · 2020年4月9日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

论文盘点：CVPR 2019 - 文本检测专题

论文盘点：CVPR 2019 - 文本检测专题

PaperWeekly

14+阅读 · 2019年5月31日

报告 | 5G十大细分应用场景研究报告（附PPT图片）

报告 | 5G十大细分应用场景研究报告（附PPT图片）

走向智能论坛

19+阅读 · 2019年4月24日

报告 | AII：《工业智能白皮书》（2019 讨论稿）（附PDF下载）

报告 | AII：《工业智能白皮书》（2019 讨论稿）（附PDF下载）

走向智能论坛

20+阅读 · 2019年3月27日

开年重磅——彭宇新团队综述与展望多媒体内容理解

开年重磅——彭宇新团队综述与展望多媒体内容理解

计算机研究与发展

14+阅读 · 2019年1月22日

ICLR 2019论文解读：深度学习应用于复杂系统控制

ICLR 2019论文解读：深度学习应用于复杂系统控制

机器之心

11+阅读 · 2019年1月10日

CVPR 2018 | 商汤科技Spotlight论文详解：基于孪生区域推荐网络的高性能单目标跟踪

CVPR 2018 | 商汤科技Spotlight论文详解：基于孪生区域推荐网络的高性能单目标跟踪

商汤科技

23+阅读 · 2018年6月11日

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

专知

16+阅读 · 2018年5月24日

中国资本市场的投资者信息解读：基于实验研究的心理学探索

国家自然科学基金

1+阅读 · 2015年12月31日

互联网商业模式价格形成机制与资源配置效率研究——基于消费者信息不完美与搜寻的博弈理论视角

国家自然科学基金

0+阅读 · 2015年12月31日

管理决策大数据分析方法与关键技术

国家自然科学基金

8+阅读 · 2015年12月31日

我国开放教育资源项目质量监测评价及质量保证策略研究——基于用户满意度视角

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

小微企业互联网平台融资模式研究—基于双向拍卖和信号博弈双重视角

国家自然科学基金

4+阅读 · 2015年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

我国上市公司大股东违规的行为监测与风险评估

国家自然科学基金

0+阅读 · 2014年12月31日

服务交互中顾客价值共创行为的管理策略研究——人力资源管理的视角

国家自然科学基金

1+阅读 · 2014年12月31日

外包与云计算情境下IT业务匹配研究：适应性结构化理论视角

国家自然科学基金

2+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

86+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

63+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

179+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

85+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

VIP会员

相关主题

大语言模型

大模型评测

相关VIP内容

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

专知会员服务

24+阅读 · 2024年5月19日

重磅！121页《大模型技术》中国人工智能系列白皮书（附下载）

重磅！121页《大模型技术》中国人工智能系列白皮书（附下载）

专知会员服务

510+阅读 · 2023年10月1日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

【ChatGPT系列报告】大模型发展趋势

【ChatGPT系列报告】大模型发展趋势

专知会员服务

112+阅读 · 2023年7月5日

【ChatGPT系列报告】AI+办公：智能化时代来临

【ChatGPT系列报告】AI+办公：智能化时代来临

专知会员服务

91+阅读 · 2023年4月27日

ChatGPT大模型work三个要点是什么？谷歌JasonWei最新《大型语言模型的缩放、涌现和推理》报告，附Slides与视频

ChatGPT大模型work三个要点是什么？谷歌JasonWei最新《大型语言模型的缩放、涌现和推理》报告，附Slides与视频

专知会员服务

100+阅读 · 2023年4月14日

北航《深度学习事件抽取》文献综述和当前趋势

北航《深度学习事件抽取》文献综述和当前趋势

专知会员服务

87+阅读 · 2021年7月6日

【IJCAI2021】复杂知识库问答研究: 方法、挑战与对策

【IJCAI2021】复杂知识库问答研究: 方法、挑战与对策

专知会员服务

57+阅读 · 2021年5月27日

Gary Marcus力作：AI的下个十年，向‘强’人工智能迈进的四步战略（附59页论文下载）

Gary Marcus力作：AI的下个十年，向‘强’人工智能迈进的四步战略（附59页论文下载）

专知会员服务

39+阅读 · 2020年2月20日

【北京智源大会2019】神经网络的优化Optimization for Overparametrized Deep Neural Networks，北京大学 | 王立威

【北京智源大会2019】神经网络的优化Optimization for Overparametrized Deep Neural Networks，北京大学 | 王立威

专知会员服务

23+阅读 · 2019年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

《城市滨海地区：理解复杂多变环境下的指挥控制框架》50页报告

《理解城市战及其在俄乌战争中的表现》报告

美空军“顶点2025”实验：推进AI在C2、动态目标锁定与联盟集成中的应用

《建设式兵棋模拟作为战术集群配置优化的关键组成部分》

相关资讯

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

专知

12+阅读 · 2022年4月14日

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

专知

22+阅读 · 2020年4月9日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

论文盘点：CVPR 2019 - 文本检测专题

论文盘点：CVPR 2019 - 文本检测专题

PaperWeekly

14+阅读 · 2019年5月31日

报告 | 5G十大细分应用场景研究报告（附PPT图片）

报告 | 5G十大细分应用场景研究报告（附PPT图片）

走向智能论坛

19+阅读 · 2019年4月24日

报告 | AII：《工业智能白皮书》（2019 讨论稿）（附PDF下载）

报告 | AII：《工业智能白皮书》（2019 讨论稿）（附PDF下载）

走向智能论坛

20+阅读 · 2019年3月27日

开年重磅——彭宇新团队综述与展望多媒体内容理解

开年重磅——彭宇新团队综述与展望多媒体内容理解

计算机研究与发展

14+阅读 · 2019年1月22日

ICLR 2019论文解读：深度学习应用于复杂系统控制

ICLR 2019论文解读：深度学习应用于复杂系统控制

机器之心

11+阅读 · 2019年1月10日

CVPR 2018 | 商汤科技Spotlight论文详解：基于孪生区域推荐网络的高性能单目标跟踪

CVPR 2018 | 商汤科技Spotlight论文详解：基于孪生区域推荐网络的高性能单目标跟踪

商汤科技

23+阅读 · 2018年6月11日

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

专知

16+阅读 · 2018年5月24日

相关基金

中国资本市场的投资者信息解读：基于实验研究的心理学探索

国家自然科学基金

1+阅读 · 2015年12月31日

互联网商业模式价格形成机制与资源配置效率研究——基于消费者信息不完美与搜寻的博弈理论视角

国家自然科学基金

0+阅读 · 2015年12月31日

管理决策大数据分析方法与关键技术

国家自然科学基金

8+阅读 · 2015年12月31日

我国开放教育资源项目质量监测评价及质量保证策略研究——基于用户满意度视角

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

小微企业互联网平台融资模式研究—基于双向拍卖和信号博弈双重视角

国家自然科学基金

4+阅读 · 2015年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

我国上市公司大股东违规的行为监测与风险评估

国家自然科学基金

0+阅读 · 2014年12月31日

服务交互中顾客价值共创行为的管理策略研究——人力资源管理的视角

国家自然科学基金

1+阅读 · 2014年12月31日

外包与云计算情境下IT业务匹配研究：适应性结构化理论视角

国家自然科学基金

2+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

86+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

63+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

179+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

85+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员