大语言模型综合能力测评报告（2023），33页ppt - 专知VIP

会员服务 ·

97

大型语言模型 · 大模型 · ChatGPT · 文心一言 ·

2023 年 5 月 30 日

大语言模型综合能力测评报告（2023），33页ppt

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

ChatGPT这一现象级产品横空出世，拉开了大语言模型技术蓬勃发展的序幕。但实际上，自2017年大语言模型诞生，OpenAI、微软、谷歌、Facebook、百度、华为等科技巨头在大语言模型领域的探索持续不断，ChatGPT只是将大语言模型技术推进至了爆发阶段，当下大模型产品格局更是呈现出了新形势——国外基础模型积累深厚，国内应用侧优先发力。

　　2022年年末以来，人工智能大模型成为技术领域乃至全球创新领域最炙手可热的话题。以ChatGPT引领的大模型产品发展日新月异，有预测数据显示，到2030年，AIGC的市场规模或将超过万亿人民币。2023年国内主要厂商也相继推出自研的大语言模型产品，另外国内也推出了大量的大语言模型应用，逐步构建起基于中文语言特色的大语言模型生态。

　　为此InfoQ研究中心基于桌面研究、专家访谈、科学分析三个研究方法，查找了大量文献及资料，采访了10+位领域内的技术专家，同时围绕语言模型准确性、数据基础、模型和算法的能力、安全和隐私四个大维度，拆分出语义理解、语法结构、知识问答、逻辑推理、代码能力、上下文理解、语境感知、多语言能力、多模态能力、数据基础、模型和算法的能力、安全和隐私12个细分维度。

　　分别对ChatGPTgpt-3.5-turbo、Claude-instant、Sagegpt-3.5-turbo、天工3.5、文心一言V2.0.1、通义千问V1.0.1、讯飞星火认知大模型、Moss-16B、ChatGLM-6B、vicuna-13B进行了超过3000+道题的评测，根据测评结果发布了《大语言模型综合能力测评报告2023》。　

成为VIP会员查看完整内容

相关内容

大型语言模型

大型语言模型

人工智能大模型体验报告（2023），62页ppt

人工智能大模型体验报告（2023），62页ppt

专知会员服务

192+阅读 · 2023年6月5日

【ChatGPT系列报告】ChatGPT浪潮下，看中国大语言模型产业发展

【ChatGPT系列报告】ChatGPT浪潮下，看中国大语言模型产业发展

专知会员服务

142+阅读 · 2023年4月14日

揭秘ChatGPT情感对话能力

揭秘ChatGPT情感对话能力

专知会员服务

59+阅读 · 2023年4月9日

【ChatGPT系列报告】GPT-4及ChatGPT相关应用梳理，33页ppt

【ChatGPT系列报告】GPT-4及ChatGPT相关应用梳理，33页ppt

专知会员服务

327+阅读 · 2023年3月19日

【ChatGPT系列报告】国内大模型概览，42页ppt

【ChatGPT系列报告】国内大模型概览，42页ppt

专知会员服务

450+阅读 · 2023年3月8日

【ChatGPT系列报告】ChatGPT：百度文心一言畅想，41页ppt

【ChatGPT系列报告】ChatGPT：百度文心一言畅想，41页ppt

专知会员服务

218+阅读 · 2023年3月3日

【ChatGPT系列报告】ChatGPT不断突破，AI驶入快车道

【ChatGPT系列报告】ChatGPT不断突破，AI驶入快车道

专知会员服务

136+阅读 · 2023年2月23日

【ChatGPT系列报告】AIGC & ChatGPT 发展报告，27页ppt

【ChatGPT系列报告】AIGC & ChatGPT 发展报告，27页ppt

专知会员服务

362+阅读 · 2023年2月18日

【ChatGPT系列报告】ChatGPT研究框架，64页pdf

【ChatGPT系列报告】ChatGPT研究框架，64页pdf

专知会员服务

392+阅读 · 2023年2月15日

ChatGPT研究框架（2023），72页ppt

ChatGPT研究框架（2023），72页ppt

专知会员服务

567+阅读 · 2023年2月11日

商汤加入 ChatGPT 战局，发布“商量”语言大模型！

商汤加入 ChatGPT 战局，发布“商量”语言大模型！

CSDN

3+阅读 · 2023年4月11日

CSDN蒋涛对话阿里云CTO周靖人：大模型风起云涌，阿里云将毫无保留地开放各项能力

CSDN蒋涛对话阿里云CTO周靖人：大模型风起云涌，阿里云将毫无保留地开放各项能力

CSDN

1+阅读 · 2023年4月11日

【ChatGPT系列报告】2023年AIGC应用与实践展望报告，47页ppt

【ChatGPT系列报告】2023年AIGC应用与实践展望报告，47页ppt

专知

27+阅读 · 2023年4月10日

揭秘ChatGPT情感对话能力

揭秘ChatGPT情感对话能力

专知

16+阅读 · 2023年4月9日

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知

29+阅读 · 2023年4月9日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

【ChatGPT系列报告】AI+行业应用深度研究，28页ppt

【ChatGPT系列报告】AI+行业应用深度研究，28页ppt

专知

26+阅读 · 2023年4月7日

2022虚拟数字人综合评估指数报告，56页ppt

2022虚拟数字人综合评估指数报告，56页ppt

专知

0+阅读 · 2022年8月30日

「2021年中国对话式AI市场报告」出炉！腾讯云智能斩获四项第一

「2021年中国对话式AI市场报告」出炉！腾讯云智能斩获四项第一

新智元

0+阅读 · 2022年7月22日

《中国人工智能发展报告2018》（附PDF下载）

《中国人工智能发展报告2018》（附PDF下载）

走向智能论坛

19+阅读 · 2018年7月17日

非常规突发事件应急管理集成方法研究

国家自然科学基金

9+阅读 · 2016年12月31日

YKL-40水平及CHI3L1基因多态性与高血压发病关系的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多维度文本特征的社区问答答案质量评估研究

国家自然科学基金

0+阅读 · 2013年12月31日

应急情景下民航管制员安全行为能力综合测评研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于文本语境约束的XML商业报告多维分析模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于FrameNet的中文评价词汇本体构建与观点挖掘研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于真实隐喻的儿童交互式学习环境研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于循证医学本体论的临床元数据语言研究

国家自然科学基金

1+阅读 · 2009年12月31日

语义计算与理解的资源共享与测评方法

国家自然科学基金

0+阅读 · 2009年12月31日

典型事件过程建模的研究

国家自然科学基金

3+阅读 · 2008年12月31日

Efficient and Accurate Optimal Transport with Mirror Descent and Conjugate Gradients

Arxiv

0+阅读 · 2023年7月17日

Zero-shot NLG evaluation through Pairware Comparisons with LLMs

Arxiv

0+阅读 · 2023年7月15日

C3: Zero-shot Text-to-SQL with ChatGPT

Arxiv

1+阅读 · 2023年7月14日

Evaluation Methodologies in Software Protection Research

Arxiv

0+阅读 · 2023年7月14日

Switching Head-Tail Funnel UNITER for Dual Referring Expression Comprehension with Fetch-and-Carry Tasks

Arxiv

0+阅读 · 2023年7月14日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

484+阅读 · 2023年3月31日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

Unmanned Aerial Vehicle Swarm-Enabled Edge Computing: Potentials, Promising Technologies, and Challenges

Arxiv

48+阅读 · 2022年1月21日

Few-shot Natural Language Generation for Task-Oriented Dialog

Few-shot Natural Language Generation for Task-Oriented Dialog

Arxiv

30+阅读 · 2020年2月27日

VIP会员

相关主题

大型语言模型

相关VIP内容

人工智能大模型体验报告（2023），62页ppt

人工智能大模型体验报告（2023），62页ppt

专知会员服务

192+阅读 · 2023年6月5日

【ChatGPT系列报告】ChatGPT浪潮下，看中国大语言模型产业发展

【ChatGPT系列报告】ChatGPT浪潮下，看中国大语言模型产业发展

专知会员服务

142+阅读 · 2023年4月14日

揭秘ChatGPT情感对话能力

揭秘ChatGPT情感对话能力

专知会员服务

59+阅读 · 2023年4月9日

【ChatGPT系列报告】GPT-4及ChatGPT相关应用梳理，33页ppt

【ChatGPT系列报告】GPT-4及ChatGPT相关应用梳理，33页ppt

专知会员服务

327+阅读 · 2023年3月19日

【ChatGPT系列报告】国内大模型概览，42页ppt

【ChatGPT系列报告】国内大模型概览，42页ppt

专知会员服务

450+阅读 · 2023年3月8日

【ChatGPT系列报告】ChatGPT：百度文心一言畅想，41页ppt

【ChatGPT系列报告】ChatGPT：百度文心一言畅想，41页ppt

专知会员服务

218+阅读 · 2023年3月3日

【ChatGPT系列报告】ChatGPT不断突破，AI驶入快车道

【ChatGPT系列报告】ChatGPT不断突破，AI驶入快车道

专知会员服务

136+阅读 · 2023年2月23日

【ChatGPT系列报告】AIGC & ChatGPT 发展报告，27页ppt

【ChatGPT系列报告】AIGC & ChatGPT 发展报告，27页ppt

专知会员服务

362+阅读 · 2023年2月18日

【ChatGPT系列报告】ChatGPT研究框架，64页pdf

【ChatGPT系列报告】ChatGPT研究框架，64页pdf

专知会员服务

392+阅读 · 2023年2月15日

ChatGPT研究框架（2023），72页ppt

ChatGPT研究框架（2023），72页ppt

专知会员服务

567+阅读 · 2023年2月11日

热门VIP内容

开通专知VIP会员享更多权益服务

用于无人机的C波段空地通信系统研究 | 2025最新116页

甚高频军事战术通信系统传播性能分析研究

军事通信系统：安全行动的支柱

卫星与地面通信系统：美陆军面临的空间与电子战局势 | 39页报告

相关资讯

商汤加入 ChatGPT 战局，发布“商量”语言大模型！

商汤加入 ChatGPT 战局，发布“商量”语言大模型！

CSDN

3+阅读 · 2023年4月11日

CSDN蒋涛对话阿里云CTO周靖人：大模型风起云涌，阿里云将毫无保留地开放各项能力

CSDN蒋涛对话阿里云CTO周靖人：大模型风起云涌，阿里云将毫无保留地开放各项能力

CSDN

1+阅读 · 2023年4月11日

【ChatGPT系列报告】2023年AIGC应用与实践展望报告，47页ppt

【ChatGPT系列报告】2023年AIGC应用与实践展望报告，47页ppt

专知

27+阅读 · 2023年4月10日

揭秘ChatGPT情感对话能力

揭秘ChatGPT情感对话能力

专知

16+阅读 · 2023年4月9日

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知

29+阅读 · 2023年4月9日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

【ChatGPT系列报告】AI+行业应用深度研究，28页ppt

【ChatGPT系列报告】AI+行业应用深度研究，28页ppt

专知

26+阅读 · 2023年4月7日

2022虚拟数字人综合评估指数报告，56页ppt

2022虚拟数字人综合评估指数报告，56页ppt

专知

0+阅读 · 2022年8月30日

「2021年中国对话式AI市场报告」出炉！腾讯云智能斩获四项第一

「2021年中国对话式AI市场报告」出炉！腾讯云智能斩获四项第一

新智元

0+阅读 · 2022年7月22日

《中国人工智能发展报告2018》（附PDF下载）

《中国人工智能发展报告2018》（附PDF下载）

走向智能论坛

19+阅读 · 2018年7月17日

相关基金

非常规突发事件应急管理集成方法研究

国家自然科学基金

9+阅读 · 2016年12月31日

YKL-40水平及CHI3L1基因多态性与高血压发病关系的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多维度文本特征的社区问答答案质量评估研究

国家自然科学基金

0+阅读 · 2013年12月31日

应急情景下民航管制员安全行为能力综合测评研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于文本语境约束的XML商业报告多维分析模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于FrameNet的中文评价词汇本体构建与观点挖掘研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于真实隐喻的儿童交互式学习环境研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于循证医学本体论的临床元数据语言研究

国家自然科学基金

1+阅读 · 2009年12月31日

语义计算与理解的资源共享与测评方法

国家自然科学基金

0+阅读 · 2009年12月31日

典型事件过程建模的研究

国家自然科学基金

3+阅读 · 2008年12月31日

相关论文

Efficient and Accurate Optimal Transport with Mirror Descent and Conjugate Gradients

Arxiv

0+阅读 · 2023年7月17日

Zero-shot NLG evaluation through Pairware Comparisons with LLMs

Arxiv

0+阅读 · 2023年7月15日

C3: Zero-shot Text-to-SQL with ChatGPT

Arxiv

1+阅读 · 2023年7月14日

Evaluation Methodologies in Software Protection Research

Arxiv

0+阅读 · 2023年7月14日

Switching Head-Tail Funnel UNITER for Dual Referring Expression Comprehension with Fetch-and-Carry Tasks

Arxiv

0+阅读 · 2023年7月14日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

484+阅读 · 2023年3月31日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

Unmanned Aerial Vehicle Swarm-Enabled Edge Computing: Potentials, Promising Technologies, and Challenges

Arxiv

48+阅读 · 2022年1月21日

Few-shot Natural Language Generation for Task-Oriented Dialog

Few-shot Natural Language Generation for Task-Oriented Dialog

Arxiv

30+阅读 · 2020年2月27日

微信扫码咨询专知VIP会员