语言模型已步入大模型发展阶段,国内大模型研发应用热潮 持续高涨,科技大厂在模型、算力、平台、应用进行了四位一体 的全面布局,如阿里的“通义大模型+飞天智算平台+魔塔社区+ 行业应用”、百度的“文心大模型+昆仑芯+飞桨平台+行业应用”、 腾讯的“混元大模型+HCC 算力集群+太极机器学习平台+行业应 用”、字节的“视觉语言模型+火山高速训练引擎+火山机器学习 平台+行业应用”。大模型落地将形成 API、PaaS 和 MaaS 三种收 费模式,目前仍以内部应用为主,后续主要向 B 端企业拓展服务, 预计少数企业将在 C 端市场形成规模。

大模型发展全面加速,通过“预训练+精调”模式进行落地。 语言建模经过统计语言模型、神经语言模型、预训练语言模型, 已经全面迈入百亿、千亿参数规模的大语言模型阶段。大语言模 型具备优秀的上下文学习能力、上下文学习能力、可观的知识容 量、优秀的泛化性和复杂推理能力。大模型研究存在 Google 的 Bert 模式、OpenAI 的 GPT 模式和国内的混合模式三条技术线, 以 ChatGPT 为主导 GPT 模式目前已经占据主流。目前,国内已 有至少 19 家企业及科研院所参与人工智能大模型训练,主要分 为大型科技公司、科研院所和初创科技团队三类。国际对比来看, 目前美国领跑,中国跟跑,但差距不断缩小。在实践中,预训练 大模型在基于海量数据的自监督学习阶段完成了“通识”教育, 再借助“预训练+精调”等模式,在共享参数的情况下,根据具 体应用场景的特性,用少量数据进行相应微调,即可高水平完成 任务。 互联网大厂在“模型、算力、平台和应用”进行四位一体布 局。阿里“通义大模型+飞天智算平台+魔塔社区+行业应用”:在 模型层,阿里达摩院主导大模型研究,发布通义大模型,包括通 义 M6 多模态模型、通义 AliceMind 自然语言处理模型、通义视 觉计算机视觉模型。在算力层,阿里云推出全栈智能计算解决方案“飞天智算平台”,并启动两座超大规模智算中心。此外,阿里不仅拥有最多的英伟达 A100 芯片,还拥有自 研芯片含光 800、倚天 710 芯片,共同为人工智能大模型ᨀ供算力。在平台层,阿里推出 AI 开源社区“魔搭”, 旨在打造下一代“模型即服务”的共享平台,整合业界多方模型ᨀ供者,为开发者ᨀ供预训练基础模型和 API 接口。在应用层,阿里已宣布旗下所有产品未来将全面改造并接入通义大模型,包括天猫、钉钉、高德地图、 淘宝、优酷、盒马等。 百度“文心大模型+昆仑芯+飞桨平台+行业应用”:在模型层,百度文心大模型构建了“基础+任务+行业” 三级模型;在算力层,算力基础设施均由百度智算中心支持,昆仑芯二代已广泛应用在文心大模型,预计昆仑 芯三代将于 2024 年初量产;在平台层,百度飞桨 PaddlePaddle 是其自主研发的深度学习平台,文心大模型通过 百度飞桨平台,实现模型训练、推理部署和场景应用;在应用层,文心大模型将应用在电力、燃气、金融、生 物医药、航天、传媒、城市、影视、制造、社科等多个行业。 腾讯“混元大模型+HCC 算力集群+太极机器学习平台+行业应用”:在模型层,2022 年 4 月,腾讯对外 披露了混元大模型,涉及自然语言处理、计算机视觉、多模态等多个领域。腾讯自研的太极机器学习平台为混 元大模型ᨀ供算力,可支持 10TB 级模型训练、TB 级模型推理计算能力等。2023 年 3 月,腾讯对标 ChatGPT 已成立“混元助手”战略级项目组;在算力层,2023 年 4 月 14 日,腾讯云发布新一代 HCC 高性能计算集群, 其采用最新一代星星海自研服务器,搭载 NVIDIA H800 Tensor Core GPU,并基于自研网络、存储架构,带来 3.2T 超高互联带宽 TB 级吞吐能力和千万级 IOPS;在平台层,腾讯自研搭建了业界一流的太极机器学习平台, 致力于让用户更加聚焦业务 AI 问题解决和应用,一站式的解决算法工程师在 AI 应用过程中特征处理,模型训 练,模型服务等工程问题;在应用层,混元大模型已成功应用于腾讯广告,将全面接入微信端、QQ 端和王者 荣耀、英雄联盟游戏端,ᨀ供智能聊天、内容推荐、情感分析、故事生成、角色塑造等功能,以及腾讯混元大 模型有望将在游戏、社交、金融、教育、医疗等领域发展生态。 字节“视觉语言模型+火山高速训练引擎+火山机器学习平台+行业应用”:在模型层,字节在 AI 方面的积 累主要集中在机器翻译、智能语音、视频图像和多模态四个领领域。字节跳动的研究成果包括非自回归模型 DA-Transformer、端到端语音到文本翻译模型 ConST、多颗粒度的视觉语言模型 X-VLM、图片和文本统一生成 模型 DaVinci 等;在算力层,火山引擎在春季火山引擎 FORCE 原动力大会上正式发布自研 DPU 等系列云产品, 并正式推出智能推荐-高速训练引擎,支持 100GB 至 10TB 以上超大模型的高效训练;在平台层,火山引擎在 2023 春季 FORCE 原动力大会发布了机器学习平台升级版,在数据管理、资源管理、流程和模型三大领域具备 核心优势;在应用层,火山引擎的 AI 场景产品主要包括智能创作、智能体验以及智能营销,目前已服务数百家 客户,分别在视频创作、互动创作、直播短视频构建中推动客户业务增长。此外,字节在内部的相关产品持续 引入 AI,包括海绵乐队、飞书 My AI 等。 商业应用尚处早期,以 API、PaaS、MaaS 三种模式为主。当前全球大模型产业落地仍处于早期探索阶段, 需要与下游场景企业合作建立大模型商业模式,但下游企业目前对于大模型的理解相对有限,所需要的资源支 撑比较薄弱。总的来说,大模型落地可以通过 API 接口调用付费、或者大厂ᨀ供落地所需的开发工具、云平台、 服务等的 PaaS 模式、更进一步是直接ᨀ供相关定制好的模型调用的 MaaS 模式。

成为VIP会员查看完整内容
74

相关内容

大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。
AIGC干货报告:2023年AIGC行业调研报告(附下载,70页)
专知会员服务
84+阅读 · 2023年9月1日
【AIGC行业深度报告】ChatGPT:国内算力,拐点之时,52页ppt
AI大模型赋能千行百业(附下载,117页)
专知会员服务
175+阅读 · 2023年7月20日
面向AI大模型的智算中心网络演进白皮书,30页pdf
专知会员服务
78+阅读 · 2023年5月15日
最新《ChatGPT》报告, 风口已至,商业化落地加速, 14页pdf
专知会员服务
36+阅读 · 2021年5月21日
聊聊日志硬扫描,阿里 Log Scan 的设计与实践
阿里技术
0+阅读 · 2022年10月26日
开源双语千亿预训练模型GLM-130B 项目原作解读
机器之心
0+阅读 · 2022年9月5日
专访阿里亚顿:Serverless与BFF与前端
前端之巅
45+阅读 · 2019年5月8日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
16+阅读 · 2017年6月13日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2023年9月28日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
400+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
139+阅读 · 2023年3月24日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员