前不久首批大模型产品陆续通过《生成式人工智能服务管理暂行办法》备案,正式上线面向公众提供服 务。 其中包括:百度文心一言、抖音云雀大模型、智谱 AI 的 GLM 大模型、中科院的紫东太初大模型、 百川智能的百川大模型、商汤的日日新大模型、MiniMax 的 ABAB 大模型、上海人工智能实验室的书 生通用大模型、科大讯飞星火大模型,以及华为、腾讯的大模型产品,共计 11 家。 同时,商汤“商量 Sense Chat”、智谱 AI 智能助手“智谱清言”,百度“文心一言”,百川智能“百川大模型”已经宣布全面向用 户开放服务。 首批大模型产品完成备案,并陆续向用户开放服务,使得大模型能够大量获得真实用户数 据反馈,加快大模型迭代速度,进而不断提升用户体验,同时基于大模型的 ToB、ToC 应用落地进程也 有望加快。

那么,什么是大模型?大模型发展经历了怎样的历程?国外大模型及国内大模型发展现状是怎样的,竞争格局及竞争壁垒是怎样的?国内都有哪些大模型?这些大模型在应用领域都有哪些差异呢?今后国内大模型将有怎样的发展方向呢?

**1.**什么是大模型?

****大模型是大规模语言模型(Large Language Model)的简称。大模型主要指具有数十亿甚至上百亿 参数的深度学习模型,其具备较大容量、海量参数、大算力等特点。大模型由早期的单语言预训练模型发展至多语言预训练模型,再到现阶段的多模态预训练模型,可实现处理多任务的目标。

大型语言模型是一种深度学习算法,可以使用非常大的数据集来识别、总结、翻译、预测和生成内容。 大语言模型在很大程度上代表了一类称为 Transformer 网络的深度学习架构。Transformer 模型是一个 神经网络,通过跟踪序列数据中的关系(像这句话中的词语)来学习上下文和含义。

**2.Transformer **

架构的提出,开启了大语言模型快速发展的新时代

****谷歌的 BERT 首先证明了预训练模型的强大潜力;OpenAI 的 GPT 系列及 Anthropic 的 Claude 等继续 探索语言模型技术的边界。越来越大规模的模型不断刷新自然语言处理的技术状态。这些模型拥有数百 亿或上千亿参数,可以捕捉语言的复杂语义关系,并进行人类级别的语言交互。

解锁大模型时代的钥匙**——Transformer **的注意力机制。

Transformer 模型最大的创新在于提出了注 意力机制,这一机制极大地改进了模型学习远距离依赖关系的能力,突破了传统 RNN 和 CNN 在处理长 序列数据时的局限。在 Transformer 出现之前,自然语言处理一般使用 RNN 或 CNN 来建模语义信息。 但 RNN 和 CNN 均 面临学习远距离依赖关系的困难:RNN 的序列处理结构使较早时刻的信息到后期会衰减;而 CNN 的局 部感知也限制了捕捉全局语义信息。这使 RNN 和 CNN 在处理长序列时,往往难以充分学习词语之间的 远距离依赖。 Transformer 注意力机制突破了 RNN 和 CNN 处理长序列的固有局限,使语言模型能在大规模语料上得 到丰富的语言知识预训练。该模块化、可扩展的模型结构也便于通过增加模块数量来扩大模型规模和表 达能力,为实现超大参数量提供了可行路径。Transformer 解决了传统模型的长序列处理难题,并给出 了可无限扩展的结构,奠定了大模型技术实现的双重基础。

**3.****参数量的倍数增长是大模型最根本的特点 **

大模型代表了一种新的预训练-微调范式,其核心是先用大规模数据集预训练一个极大的参数模型,然 后微调应用到具体任务。这与传统的单任务训练形成了对比,标志着方法论的重大变革。参数量的倍数 增长是大模型最根本的特点,从早期模型的百万量级,发展到现在的十亿甚至百亿量级,实现了与以往 数量级的突破。 Transformer 架构的提出开启了 NLP 模型设计的新纪元,它引入了自注意力机制和并行计算思想,极大 地提高了模型处理长距离依赖关系的能力,为后续大模型的发展奠定了基础。正是由于 Transformer 架 构的成功,研究者们意识到模型的架构设计在处理复杂任务和大规模数据中发挥着举足轻重的作用。这 一认识激发了研究者进一步扩大模型参数量的兴趣。虽然之前也曾有过扩大参数量的尝试,但因受限于 当时模型本身的记忆力等能力,提高参数数量后模型的改进并不明显。

GPT-3 的成功充分验证了适度增大参数量能显著提升模型的泛化能力和适应性,由此掀起了大模型研究 的热潮。它凭借过千亿参数量和强大的语言生成能力,成为参数化模型的典范。GPT-3 在许多 NLP 任 务上表现亮眼,甚至在少样本或零样本学习中也能取得惊人的效果。 **4.****大模型优势及应用前景 **

与早期的人工智能模型相比,大型模型在参数量上取得了质的飞跃,导致了在复杂任务的建模能力整体 上的提升: 1)学习能力增强:以应对更复杂的任务;2)泛化能力加强:以实现更广泛的适用性;3) 鲁棒性提高;4)具备更高层次认知互动能力:可模拟某些人类能力等。 应用前景:复杂性、高维度、多样性和个性化要求使得大型模型在某些任务上更易获得出色的建模能力; 多模态传感器数据的融合分析,尤其涉及到时序数据的处理,如自动驾驶;杂且动态的目标,需要模型 从大规模多样化的数据模式中学习,如金融领域中的量化交易策略优化;涉及异构数据源的高维输入空 间,如医学图像和报告;需要为不同用户或场景进行个性化建模的定制化需求,如智能助理。

**5.**大模型商业模式

****目前大模型商业应用尚处早期,以 API、PaaS、MaaS 三种模式为主。当前全球大模型产业落地仍处于 早期探索阶段,需要与下游场景企业合作建立大模型商业模式,但下游企业目前对于大模型的理解相对 有限,所需要的资源支撑比较薄弱。总的来说,大模型落地可以通过 API 接口调用付费、或者大厂提供 落地所需的开发工具、云平台、服务等的 PaaS 模式,更进一步是直接提供相关定制好的模型调用的 MaaS 模式。 **二、国内外大模型发展现状及竞争栺局 **

**1.****全球:中美领先发展,但行业栺局或将相对独立 **

从全球范围来看,中美在大模型领域引领全球发展。其中,基于在算法模型研发上的领先优势,美国大 模型数量居全球首位,根据中国科学技术信息研究所、科技部新一代人工智能发展研究中心联合发布的 《中国人工智能大模型地图研究报告》,截至 2023 年 5 月,美国已发布 100 个参数规模 10 亿以上的 大模型。 中国亦积极跟进全球大模型发展趋势,自 2021 年以来加速产出,如 2021 年 6 月北京智源人工 智能研究院发布 1.75 万亿参数量的悟道 2.0、2021 年 11 月阿里 M6 大模型参数量达 10 万亿等。截至 2023 年 5 月,我国已发布 79 个大模型,在全球范围占据先发优势。但考虑到数据安全、隐私合规以及 科技监管等因素,中美的大模型市场有望形成相对独立的行业格局。

**2.****海外:****OpenAI 及谷歌双龙头+Meta 开源追赶+****垂类特色厂商的栺局已较 为清晰 **

从海外大模型格局来看,目前已经形成较为清晰的双龙头领先+Meta 开源追赶+垂类繁荣的格局。同时, 基于通用大模型能力已相对成熟可用,其上的应用生态已逐渐繁荣。 得益于对先进算法模型的集成以及较早的产品化,OpenAI 不仅展现了 GPT 在人机对话中的超预期表现, 同时基于 GPT 的应用生态也已逐渐繁荣,微软数款产品(Bing、Windows 操作系统、Office、浏览器、 Power Platform 等)、代码托管平台 GitHub、AI 营销创意公司 Jasper 等均已接入 GPT。 谷歌在人工智能领域持续投入,其提出的 IeNet 卷积神经网络模型、Transformer 语言架构、BERT 大 语言模型等均对全球人工智能产业产生重要推动。 但由于公司团队变动及更谨慎的产品化落地的态度, 谷歌前期尚未大规模推出面向 C 端的 AI 产品。在 ChatGPT 快速流行的带动下,谷歌亦推出聊天机器人 Bard 及 PaLM2,并将接入谷歌的协作与生产力工具 Workspace 以及与 Spotify、沃尔玛、UberEats 等 外部应用融合。 Meta 通过开源方式快速追赶,7 月发布最新开源大模型 LLaMA2,使用 2 万亿 tokens 训练,上下文长 度翻倍,实现了更强大的表现能力和更广泛的应用场景。 此外,Anthropic、Cohere、Hugging Face 等基于各自的垂类特色和定制化服务也在海外 AI 市场中扮 演着重要角色。

**3.**国内:互联网巨头有望保持领先地位,中小厂商或将面临路径选择

****ChatGPT 获得良好用户反响并在全球范围引发关注以来,中国头部科技企业(阿里、百度、腾讯、华为、 字节等)、新兴创业公司(百川智能、MiniMax 等)、传统 AI 企业(科大讯飞、商汤科技等)以及高 校研究院(复旦大学、中科院等)亦加速大模型领域投入。 当前国内大模型仍处研发和迭代的早期阶段, 各个大模型的性能差异及易用性仍在市场检验的过程当中,预计国内大模型领域竞争格局的明晰仍需一 定时间,但是互联网巨头在 AI 领域积累已久,具备先发优势。

综合上述分析,结合行业竞争要素,并参考海外当前竞争格局,国内大模型赛道有望形成与海外相似的 产业趋势,兼具技术、资金、人才和场景优势的头部互联网企业有望成为大模型领域的重要玩家,而中 小厂商或将面临路径选择。 一方面,中小厂商可以利用自身在垂类场景和数据层面积累的优势,成为聚焦垂类的核心特色玩家;另一方面,基于训练和用户调用带来的算力需求的激增,考虑到资源优势和经 济性,中小厂商或将寻求云厂商的支持和合作。

**三、国内大模型竞争壁垒 **

技术投入、核心人才和应用场景构成大模型竞争的核心壁垒。大模型是一个重资源禀赋、高进入门槛的 赛道,其对算法模型的有效性、高质量的数据、算力的支撑能力均有极高要求,模型的优化迭代亦有赖 于资金和人才的持续投入。此外,大模型的实际落地和行业应用能力也是市场检验的重要标准。

**1.****算法模型:追随海外技术进展,研发突破是竞争关键 **

从技术路线来看,国内大模型主要追随海外进展。基于谷歌在人工智能领域更高的影响力以及 BERT 开 源代码,前期我国企业在大模型领域的探索更多参考 BERT 路线。随着 ChatGPT 在人机对话领域的超 预期表现验证了高质量数据+反馈激励(大模型预训练+小数据微调)的有效性,国内大模型技术路线也 逐渐向 GPT 方向收敛尽管模型架构设计的不同对特定任务上的表现有一定影响,但国内大模型厂商在技术上基本同源,从而 导致了现阶段较为相似的模型能力,而下一阶段对于 GPT 方向的研发突破将是竞争关键。

**2.****算力:互联网厂商在算力资源上具备优势 **

随着模型参数和复杂度的提升,大模型对算力的需求也在加速增长。当前国内已发布的大模型中,参数 规模达到千亿及以上的厂商仅为 10 个左右,一定程度上体现出各厂商之间算力能力的差异。互联网厂 商在算力资源上具备相对优势,主要原因包括: 1)互联网企业业务布局多元,用户基数庞大,海量数 据高频更新,使得互联网企业自身对算力有大量需求,阿里、字节、百度、腾讯等头部互联网企业是全 球芯片及服务器领域的重要客户; 2)阿里云、百度云、腾讯云等为国内头部云厂商,在云计算中心、 AI 算力平台、超算中心等新型高性能计算基础设施上布局领先,如阿里云推出 PAI 灵骏智算服务,提 供覆盖 AI 开发全流程的平台和分布式异构计算优化能力;腾讯云发布新一代 HCC(High-Performance Computing Cluster)高性能计算集群,算力性能较前代提升高达 3 倍。

**3.****数据:优质开源中文数据集稀缺,自有数据及处理能力构成模型训练壁 ****垒 **

得益于开源共创的互联网生态,海外已有大量优质、结构化的开源数据库,文本来源既包含严谨的学术 写作、百科知识,也包含文学作品、新闻媒体、社交网站、流行内容等,更加丰富的语料数据能够提高 模型在不同情景下的对话能力。而受制于搭建数据集较高的成本以及尚未成熟的开源生态,国内开源数 据集在数据规模和语料质量上相比海外仍有较大差距,数据来源较为单一,且更新频率较低,从而导致 模型的训练效果受限。 因此,大模型厂商的自有数据和处理能力构成模型训练效果差异化的核心。受益 于移动互联网时代积累的海量用户、应用和数据,互联网企业在自有数据上更具特色化和独占性,叠加 更强大的数据处理能力,从而能够通过数据优势带来模型训练成果的差异。 例如,阿里在研发 M6 时, 构建了最大的中文多模态预训练数据集 M6-Corpus,包含超过 1.9TB 图像和 292GB 文本,涵盖百科全 书、网页爬虫、问答、论坛、产品说明等数据来源,并设计了完善的清洁程序以确保数据质量。百度 ERNIE 模型的训练数据集中也运用了大量百度百科、百度搜索以及百度知识图谱等生态内数据,通过 更高质量的数据保障了模型的训练效果。

**四、国内主要大模型及应用端梳理 **

通过横向对比各应用在完成不同细分领域任务时的效果,以及体验各应用的特色功能,认为各应用间存 在差异化的定位: 1)综合能力强:百度文心一言、讯飞星火为“六边形战士”型,在众多细分应用场景有垂类 AI 助理解决 特定任务;通义千问划分相应垂类 AI 助理,但数量少于前两者;腾讯混元也划分众多细分场景,但仍 在内测阶段,关注其正式上线节奏。 2)擅长特定类型任务:智谱清言、豆包分别偏向于办公效率工具、日常生活助手;商量是商汤多模态 模型系列日日新中的文本对话应用,系列内其他应用具备图像、视频、3D 模态的生成能力;百川智能 功能则相对较少,主要围绕文本。

**1.****百度文心一言大模型 **

**(1)文心一言向全社会开放,生成式 ****AI ****商用渐进 **2023 年 8 月 31 日,文心一言率先向全社会全面开放。用户可以在应用商店下载“文心一言 APP”或登陆 “文心一言官网”体验。此外,百度还将开放一批经过全新重构的 AI 原生应用,让广大用户充分体验生成 式 AI 的理解、生成、逻辑、记忆四大核心能力。 **(2)深耕人工智能,具备全栈自研及丰富下游场景 **百度深耕人工智能领域,近 10 年累计研发投入超 1400 亿元,具备应用、模型、框架、芯片四层全栈布 局、并在各层都有领先的关键自研技术。 1)底层 AI 芯片:昆仑芯片,前身为百度智能芯片及架构部门, 后 2021 年完成独立融资,目前有昆仑心 1/2 两代量产产品。 2)深度学习框架:飞桨平台,集核心框架、 基础模型库、端到端开发套件于一体。截至 2023 年 8 月,飞桨平台开发者数已达 800 万、模型数超 80 万。 3)模型层:“文心一言”为“文心大模型 ERNIE”版图中一员。 4)应用层:包含搜索等丰富下游 场景,可将文心等模型应用于具体场景或嵌入具体工具。 **(3)文心大模型持续迭代,****AI ****引领商业化变革 **

今年上半年百度文心大模型更新至 3.5 版本,年底将推出 4.0 版本。期待百度文心大模型持续迭代,并 在 AI 应用拓展道路上进行率先探索,预计中长期将对百度的核心竞争力做出贡献。 文心一言首日用户数破百万。据百度官网,8 月 31 日起,用户可在 APP 或登陆官网体验。据百度官方, 文心一言 APP 发布首日用户数突破 100 万。从体验来看,文心一言主要有以下特色功能/体验,有望提 高用户粘性: 1**)汇集众多细分场景的问答功能 在“发现”页面,文心一言就诸多场景提供特定任务的智能问答功能,如学习、情感、娱乐等,其中“学习” 内就可为用户提供翻译、大纲生成、复习助手等。 2)有社区生态与指令模板,降低使用门槛 **APP 端用户可分享与文心一言的对话,供其他用户查看,从而互相学习指令以获得灵感;网页端内, “一言百宝箱”提供各应用场景提供参考的指令。

3**)发布插件生态平台,引入第三方能力 **

9 月 1 日,文心一言插件生态“灵境矩阵”开启内测邀请,首批已有近百家企业入驻,如携程、WPSAI、 爱奇艺、汽车之家、猫眼电影、懂球帝等。 目前,文心一言 PC 端已正式开放 3 个插件,为说图解图(基于图片进行文字创作)、E 言易图(基于 数据提供洞察及图表制作)、览卷文档(基于文档的摘要与问答)。 **2. ****科大讯飞星火认知大模型 ****2.0 **版本

****2023 年 8 月 15 日,科大讯飞发布星火认知大模型 2.0 版本,该版本下大模型各项能力均持续提升,重 点展示了代码能力和多模态能力的提升,即根据文字或语音要求,自动生成和理解代码、图片的能力。 科大讯飞宣布将这些功能同步到其多个产品和业务中,应用领域将不断推广:发布 iFlycode 智能编程助 手,升级讯飞星火语伴 2.0,发布星火教师助手,提供模型的私有化部署能力。

星火大模型 2.0 提升了代码编写过程中代码生成、代码补全、代码纠错和单元测试生成功能。在发布会 现场测试中,通过一句话编写代码,便可通过 python 编写贪吃蛇小游戏,代码生成能力性能卓越。讯 飞星火的代码生成和补齐能力已经超过了 ChatGPT,其他各项能力正在快速追赶。 公司也给出了代码能 力进步的明确目标,今年 10 月 24 日各个代码纬度能力都会超过 ChatGPT,明年上半年要对标 GPT4。 为了让研发人员更好的应用星火大模型的代码能力,同时发布了全新产品智能编程助手 iFlyCode1.0。 根据讯飞内部研发效能平台对 2000 余名员工在 1 个月内测试使用 iFlyCode1.0 的成效数据统计,代码 采纳率达 30%,编码效率提升 30%,综合效率提升 15%。

**3.****智谱清言 **

2023 年 8 月 31 日,北京智谱华章科技有限公司(以下简称“智谱 AI”)正式上线首款生成式 AI 助手 ——智谱清言。该助手基于智谱 AI 自主研发的中英双语对话模型 ChatGLM2,用户可通过苹果商店 AppStore、安卓主流应用市场(华为、OPPO、vivo、应用宝及小米)下载或搜索微信小程序进行体验。 作为基于中英双语对话模型 ChatGLM2 研发而成的生成式 AI 助手,智谱清言通过万亿字符的文本与代 码预训练,结合有监督微调技术,以通用对话的产品形态成为更懂用户的智能助手,在工作、学习和日 常生活中赋能用户,解答用户各类问题,满足用户问询需求。 智谱 AI 致力于打造新一代认知智能大模型,专注于做大模型的中国创新。公司于 2020 年底开始研发 GLM 预训练架构,并训练了百亿参数模型 GLM-10B,2021 年利用 MoE 架构成功训练出万亿稀疏模型, 于 2022 年合作研发了双语千亿级超大规模预训练模型 GLM-130B,并基于此千亿基座模型打造大模型 平台及产品矩阵。 今年 6 月智谱 AI 将千亿模型 ChatGLM 升级到二代,效果大幅提升,模型支持的上下文长度扩展到 32K,并大幅提高推理速度。基于基座模型能力的增强,智谱清言已具备更强大的性能**,**在多轮对话当 中,作为一个“有知识、有记忆”的 AI 助手,智谱清言对上下文理解长度已从 2K 拓展至 32K,储备了 包括科学、技术、历史、文化、艺术、商业和其他垂直领域的丰富知识,以此保障用户人机对话体验, 持续畅聊无压力。目前产品已具备通用问答、多轮对话、创意写作、代码生成以及虚拟对话等丰富能力, 未来还将开放多模生成能力。

**4.****豆包 **

2023 年 8 月 17 日,字节跳动公测基于云雀大模型开发的 AI 对话产品“豆包”,有网页端、iOS 和安卓客 户端,预置了英语学习助手和写作助手两个功能。 云雀大模型的定位是一个自然语言内容生成和内容理解的 AI 大模型,该模型基于字节机器学习平台开 发,它可以通过自然语言处理技术与用户进行对话,回答用户的问题,提供相关的信息和建议。 除了语言产品“豆包”,字节研究团队还曾公布一个多模态大模型的学术研究项目 BuboGPT,该模型能够 处理包括文本、图像和音频在内的多模态输入,即指,不仅可以理解图像、音频和文本,并将这些理解 与文本输入和输出相结合,还可以定位和描述图像中的物体以及声音的来源。 8 月 31 日,字节旗下 AI 对话应用“豆包”APP 正式对公众放开。据体验,豆包主要具备以下特点: **(1)应用场景更偏生活化 **豆包应用功能相对简约,功能也更偏向生活场景,主要围绕情感陪伴、旅行规划、日常写作等,应用场 景较文心一言、讯飞星火也较少。 **(2)为生成的事实性内容提供索引,提高可信度 **根据用户需求,若生成的内容对真实性要求较高,豆包会在生成结果末尾附带引用链接,以便用户确认 信息真实性,如专业术语、现实世界的事件或地理位置等;若用户的需求仅以聊天、联想为主,则豆包 不会生成引用链接,让聊天互动尽可能不古板。

**5.****商汤大模型 **

1)商汤发布**“日日新”****大模型体系,构建面向 ****AGI ****核心能力 **

2023 年 4 月 10 日,商汤举行技术交流日,发布“日日新 SenseNova”大模型体系,展示了问答、代码生 成、2D/3D 数字人生成、3D 场景/物体生成等 AI 模型应用能力。在落地场景方面,商汤语言大模型在 专业文本理解、代码生成和辅助初步医疗问诊领域展现出较强的能力,生成式 AI 在电商、广告、文旅 等领域潜力较大。 从商汤大模型体系中,可以看到垂直领域的丰富数据对于大模型落地至关重要,看好 具备丰富数据的行业率先通过 AI 大模型落地实现降本增效。商汤开放自然语言生成、图片生成等 API, 以及数据标注、模型训练及微调等一系列 MaaS(Modelasa Service)服务,我们认为从“卖算力”走向 “卖模型”可能是大模型企业发展的一条新商业模式。

**6.****阿里通义千问 **

2022 年 9 月阿里发布最新“通义”大模型系列,其中通用模型层包含通义-M6、通义-AliceMind 和通义- CV 三类模型,覆盖多模态、自然语言处理、计算机视觉,专业模型层深入电商、医疗、法律、金融、 娱乐等行业。 2023 阿里云峰会召开,此次大会大规模语言模型(LLM)“通义千问”正式发布,成为第四个通用模型。 通义千问支持多轮交互及复杂指令理解、多模态融合以及外部增强 API,应用包括多轮对话、文案创作、 逻辑推理、多模态理解、多语言支持等。目前“通义千问”开启正式的限量邀请体验。

阿里云将致力于让 AI 更普及。对于阿里内部,阿里所有产品将接入通义千问大模型全面升级。目前, 钉钉、天猫精灵等产品已接入通义千问测试。对于开发者和企业,1)通义提供多种模型接入和调入方 式,基于灵骏平台,其支持各种模型一键部署云上服务,灵活 API 调用、支持模型微调和定制化。2) 推出通义千问-企业专属大模型产品,可以通过 Web 界面或者专属 API 开发。 **7.**腾讯混元大模型

****2023 年 9 月 15 日,腾讯云宣布,腾讯混元大模型首批通过备案,将正式上线,并陆续面向公众开放。 腾讯混元大模型是由腾讯全链路自研的实用级大模型,拥有超千亿参数规模、预训练语料超 2 万亿 tokens,已深度应用到多个业务场景中,包括腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、 腾讯文档、微信搜一搜、QQ 浏览器等在内的超百个业务和产品,已经接入腾讯混元大模型测试。 腾讯作为中国最大的软件服务商,社交有微信、QQ 两个 10 亿用户级的产品,游戏占中国市场四成甚至 更多的市场份额,旗下还有着中国前两大的支付工具,前三大的视频平台,前三大的短视频平台,以及 中国最大的音乐 App、网文 App,此外在办公领域,腾讯会议、腾讯文档、企业微信等产品也有着领先 的市场份额。混元大模型背靠腾讯,拥有众多潜在的应用场景,落地的场景越多,用户产生的商业价值、 数据也就越多,通用大模型的训练成本及推理成本随之降低,但模型能力却会更强,从而形成飞轮效应。 **(1)混元公开发布,但仍在内测中,重视模型的可靠性与成熟度 **

9 月 7 日,腾讯自研的通用大语言模型混元正式亮相,拥有超千亿参数规模,通过腾讯云对公众开放, 但需要申请内测名额。据腾讯,混元能够做到优于业内其他模型的可靠性和成熟度,表现在“胡言乱语” 的现象相比主流开源大模型降低了 30%至 50%,也能识别陷阱问题等。 **(2)有多个细分应用场景 **在“灵感发现”功能中,用户可让混元解决多个细分领域的创作需求,包括编程、营销、角色扮演等

**8.****百川智能 **

2023 年 9 月 6 日,百川智能正式发布微调后的 Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat 与其 4bit 量化版本,均为免费可商用的开源大模型。目前在主流中英文通用榜单上,Baichuan2 性能领 先于 Meta 于 7 月 19 日发布的 Llama2,其在中文对话理解方面表现优异,且在开源商用上更加彻底。 Baichuan 不仅在 GitHub、HuggingFace 等国际开源社区中上线,最新的 Baichuan2 也已经上线了国内 的魔塔社区、昇思社区,在过去的一个月内,Baichuan 系列的下载量超过 300 万次,为当月下载量最 高的开源大模型,Baichuan 为大模型开源生态发展贡献了重要力量。未来开源和闭源大模型相互竞争、 相互促进,随着 Baichuan 等开源大模型的进一步发展,将加速技术的迭代与应用的拓展。 **(1)聚焦文本,功能较少 **

8 月 31 日,百川智能对公开放,用户可登录官网体验百川大模型,获得知识问答、文本创作等体验,目 前功能相对较少。 **(2)国内首发开源模型,文本能力表现较好 **

今年 6-8 月内,百川相继发布了 3 个参数级别的通用大模型,其中 70 亿、130 亿参数模型开源可商用, 为国内首家开源模型,在 Huggingface 下载量已突破三百万,Baichuan-13BChat(V2)位列 8 月 SuperClue 中国产大模型榜首;而 530 亿的模型则在知识性上表现优异,擅长知识问答、文本创作等, 未来将开放 API。 3)开发团队已获得业内广泛认可

百川智能成立于 23 年 4 月 10 日,由前搜狗公司 CEO 王小川创立,核心团队多来自搜狗、百度、华为 等头部互联网公司的 AI 人才。据官网,百川智能已经有诸多合作伙伴,涉及腾讯、阿里、字节等互联 网大厂,顺丰、农行等知名企业。

**五、国内大模型未来发展方向 **

**1. **大模型正在成为推动新一轮科技创新、产业升级、生产力跃迁的重要力 量

****随着前沿技术推动产业全链条升级,未来从田间到产线,从实验室到便利店,大模型可能会无处不在。 从大模型应用类型来看,国外研发的大模型主要以通用大模型为主,而我国国产大模型更加贴近产业端, 呈现出行业大模型占比较高的发展形态。 “以大模型生成技术为核心,人工智能正在成为下一轮数字化 发展的关键动力,为解决产业痛点带来了全新的思路。 大模型的价值在于应用,要在多样化的实际应用场景中赋能智能经济与智能社会的发展。 除了对话、写 诗、作画等应用之外,要将大模型切实投入到城市发展、金融科技、生物医药、工业制造、科学研究等 领域,在实体产业落地,为社会经济带来实实在在的价值。事实上,利用大模型加速千行百业的数字化、 智能化转型,深耕实体经济行业,正在成为业界的共同选择。

**2. ****加快布局大模型及其相关产业,尽快实现关键性突破,建议从算力、数 据等方面进一步夯实国产大模型根基 **

大模型的性能主要受算力、数据、算法三方面因素影响。在算法方面,国产大模型与国际先进水平相比 没有根本性差异,基本都是围绕深度神经网络、注意力机制、人工调优等基础算法上进行模型结构或局 部算法优化,而在算力、数据等方面则与国际先进水平存在差距。 加快布局大模型及其相关产业,尽快实现关键性突破,建议从算力、数据等方面进一步夯实国产大模型 根基。 1)加快推进算力基础设施建设

** **推进国家重大算力基础设施建设,并以此为基础进一步形成覆盖全国的算力网络,使得算力的供给与使 用像电网、水网一样触手可及。此外,建设技术创新中心、生态实验室等平台,加强中试与验证,带动 产业链上下游企业共同攻关突破新技术、研发新产品。 **(2)建立可信数据联盟 **

为国产大模型训练提供安全的高质量数据,组建面向人工智能大模型的可信数据联盟,提供高质量的丰 富中文语料库,打造数字时代“四库全书”。 **(3)打造关键领域大模型建设的标杆示范工程 **

发挥标杆示范工程的引领带动作用,带动各行业积极融入大模型发展进程,加快形成一批符合国家需求 的软硬件产品和解决方案,形成需求牵引供给、供给创造需求的良性循环。

成为VIP会员查看完整内容
141

相关内容

大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。
【紫冬新作】人脸识别新突破:真实场景下的大规模双样本学习方法
中国科学院自动化研究所
10+阅读 · 2019年3月7日
干货篇|百度UNIT对话系统核心技术解析
InfoQ
23+阅读 · 2018年9月20日
【深度】多媒体计算国际团队:从单通道感知到跨媒体认知
中国科学院自动化研究所
73+阅读 · 2017年8月14日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
31+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
148+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
375+阅读 · 2023年3月31日
Arxiv
133+阅读 · 2023年3月24日
Arxiv
19+阅读 · 2023年3月17日
已删除
Arxiv
31+阅读 · 2020年3月23日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
31+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员