大模型路在何方？昇腾AI指明方向

会员服务 ·

大模型路在何方？昇腾AI指明方向

2022 年 11 月 21 日 机器之心

机器之心原创

作者：杜伟

在近日的华为全联接大会 2022 中，昇腾 AI 为大模型的开发、落地探索出了一套完整的解决方案，并携手产学研各界围绕大模型的前沿探索与发展方向进行了探讨。

每年 9 月的第四个星期日为国际聋人节，全球约有 2.5 亿听障人群。在无声的世界中，他们中的大多数人需要依靠手语交流。不过，熟练理解和掌握手语并不是一件易事，手语学习也往往面临种种困难。

一方面，仅仅依靠手语交流，有时无法准确理解对方的意思。另一方面，手语词汇更新慢，难以学习新知识。此外像口语一样，手语在不同地域也存在着「方言」，标准不一，导致互识难度较大。如今，AI 尤其是大模型正在改善这一困局。

为了让听障人群更容易理解手语以及更轻松学习手语，千博信息、中国科学院自动化研究所基于昇腾 AI 开发了 手语多模态模型并打造了手语教考一体机 。手语教考一体机实现了手语动作与示意文字和图像的联动，在识别到文字信息后自动演示相应的手语动作并生成对应的图像，使得手语的学习更加直观和丰富。

然而，手语多模态模型并不是从零开始训练，它的背后是华为联合中科院自动化所推出的基于昇腾 AI 打造的全球首个图文音三模态大模型紫东. 太初，只需一个大模型就能支撑图文音全场景 AI 应用。在手语学习这一应用场景中，基于紫东. 太初的手语多模态模型更是加入了实时手语手势识别等功能。这是大模型落地应用的「牛刀小试」。

微博 @AI 千言

但应看到，虽然业界出现了很多与行业结合的大模型，但当落到具体应用场景时却又可能无从选择。即使选对了契合应用场景的大模型，有时也会由于适配、部署等原因而使用不便，影响到商业落地。紫东. 太初是解决这些问题的一个典范，凭借图文音基础任务性能提升，它在多模态内容的理解、搜索、推荐和问答、语音识别和合成等应用中具有巨大的市场价值。同时向业界开放多种 API，让合作伙伴基于自身场景孵化更多行业应用，也更有可能实现商业价值。

紫东. 太初只是大模型发展全景的一部分，随着 AI 大模型的持续创新，像千博手语这样的落地应用将层出不穷。而为了更好地支持大模型发展，华为更是联合产学界合作伙伴构建了从规划到开发部署再到产业化落地的「 全流程使能大模型 」体系。大模型的规划、开发与产业化这三个方面缺一不可。

首先，大模型的发展遵循规划先行的原则，中国科学技术信息研究所正在牵头与产业界合作伙伴共同规划 大模型地图 ，有序引领创新方向；其次，大模型的开发是基石，昇腾构建的一站式 大模型开发使能平台 ，实现了易开发、易适配和易部署；最后，产业化落地是检测大模型能力的重要指标，华为携手合作伙伴 围绕各个领域的大模型形成产业联合体 ，打通科研创新和产业落地，真正赋能各行各业。

下面为华为全流程使能大模型体系全景图。

「按图索骥」，中国大模型发展尽在掌握

当前，大模型的重要性日益凸显，国内加快了自身大模型的发展步伐。头部高校、科研机构与企业联手发挥起主力军作用，纷纷拓展大模型能力，创新发展模式。同时各地建设的 AI 计算中心也为大模型的孵化提供了充足的算力支撑。

到 2021 年，我国大模型数量已经达到了 21 个，如基于昇腾 AI 的鹏程. 盘古、紫东. 太初等代表性千亿参数级大模型。不客气地说，我国大模型发展已经走在了世界前列。但综合来看，国内大模型的发展集中爆发于最近一两年，仍处于早期阶段，难免存在不足之处。这时对我国大模型发展的现状、痛点和前景进行全方位了解变得很有必要。

因此，中国科学技术信息研究所联合相关研究力量， 共同对中国人工智能大模型发展现状展开了调研，形成了《中国人工智能大模型地图研究报告》 ，其中以可视化形式，从分布、要素、活跃度和应用等四个维度总结了中国大模型的阶段性发展特征，并对存在的问题进行剖析。

四个维度涵盖了大模型的方方面面，当前我国大模型发展的现状和问题一目了然地展现在了面前。以分布为例，我们大模型在地理上分布较广，主要位于北京、深圳、武汉、西安等新一代人工智能发展试验区。领域分布也不均衡，以 NLP 和多模态为主。此外还面临着要素缺乏统筹、开发过程缺乏协作、行业落地困难、赋能实体经济不足等亟待解决的问题。

解决这些问题并非易事，需要多方主体、多领域和多手段的多管齐下。因此，中国大模型地图针对性地提出了解决方案，包括统筹规划大模型发展布局、汇聚大模型发展要素、在算力方面加强发展人工智能计算中心和算力网络、强化场景创新、加强政府支持、鼓励产学研各界携手等。

就其意义而言，中国大模型地图不仅为想要投身该领域的学界和业界玩家提供了明确的图景，而且为下一步统筹规划大模型发展、积极探索产业赋能提供了有效的方法工具。不久后，完整版的《中国人工智能大模型地图研究报告》将于「2022 年中关村论坛」上正式发布。大家可以期待一下！

开发、适配和部署齐头并进，全方位使能大模型开发

虽然大模型成为当前 AI 发展的重要方向，但说到开发，大模型似乎只有头部高校、科研机构和大厂才能玩得起。从数据采集、到模型训练、微调和部署，整个过程要耗费难以想象的资金和时间，一般企业和机构无疑是承担不起的。这在一定程度上限制了大模型的丰富性和延展性。

如何解决这一难题呢？今年 6 月， 华为推出了基于昇腾 AI 打造的大模型开发使能平台 ，从大模型开发套件、大模型微调套件和大模型部署套件三方面真正实现易开发、易适配和易部署。该平台也成为了华为「全流程使能大模型」体系的至关重要一环。

其中在 大模型开发阶段提供了高性能 Transformer API 。这是一种高度封装的接口，在算法开发和分布式训练上只需特别少的修改，就能像搭积木一样快速构建出复杂而庞大的模型。同时在存储等底层硬件上，大模型开发使能平台也做了很多优化以提升效果。此外，昇腾 AI 社区已经训练过众多大模型，并且通过将十多个主流预训练大模型开放到昇腾社区，开发者能直接调用，快速完成二次开发。

昇腾社区：https://www.hiascend.com/

需要注意的是，华为开放的主流预训练大模型，不仅提供了详细的训练代码，例如分布式训练策略、分布式数据迭代逻辑或者具体模型结构代码，同时还提供具体的模型预训练权重文件，特别易于开发。我们既可以方便地调用预训练大模型直接进行预测，同时在自己的领域数据上做增量训练或者微调也特别简单。

另外 大模型使能平台也是易于适配的，能适配到各种相关任务与领域，大大降低了模型微调中各种处理过程的复杂度 。简单来说，昇腾 AI 已经支持了众多微调套件，从最基础的数据标注到小样本训练，再到一键微调与超参数调优，整个微调流程简单易用地完成。目前紫东. 太初就基于微调套件，提供了开放服务平台，帮助用户便捷完成场景适配。

紫东.太初大模型开发服务平台链接：https://taichu.cn-central-221.ovaijisuan.com/home

最后， 在大模型开发使能平台中，模型也是易于部署的，有现成的工具进行多卡分布式推理和轻量化推理 。其中轻量化推理特别吸引人，因为昇腾 AI 提供了自动剪枝、蒸馏和量化等模型压缩工具，不需要我们手动一步步尝试各种压缩算法来找到一种合理的方式，从而节省了大量工程方面的工作。

举例来说， Int8 量化推理，首先就要做量化训练，在计算图中插入各种量化及反量化算子，从而能以最小的效果代价获得最大的速度提升；其次还需要适配 CANN 的 GraphEngine（对于昇腾计算设备）；最后才是放到计算设备上进行推断；整个量化过程会遇到很多模型上的工程难题，也会遇到很多底层计算上的工程难题。所以说，昇腾 AI 自动化的模型压缩工具，将大大降低模型部署成本。

真正做到大模型开发、适配和部署的「易」却不容易， 昇腾 AI 基础软硬件平台为大模型开发使能平台夯实了基础 。过去三年，华为在硬件、软件、行业 AI 解决方案和开发者数量方面都收获颇丰。就在刚刚过去的华为全联接大会 2022 上，昇腾 AI 基础软硬件平台又迎来全面升级。

一方面，华为官宣年底将 CANN 异构计算架构升级到 6.0 版本，开放底层开发体系，提升 CANN 的易用性，算子自定义开发效率实现倍级提升。在大模型能力持续增强的基础上，昇思 MindSpore 2.0 升级为 AI 融合框架，进一步构建对科学智能的支持能力。昇腾训练和推理解决方案也全新升级，易用性和性能得到全面提升。另一方面，昇腾 AI 致力于使能人工智能计算中心建设和算力网络，并将算力向社会开放。

在可以预见的未来，随着昇腾 AI 基础软硬件平台的持续升级，大模型使能开发平台将为更多玩家的入局以及丰富整个领域提供无限可能。

大模型落地，产业联合体势在必行

大模型的应用是实现其价值的最后一环，因此探索大模型落地的新方法、新模式成为绕不过的研究课题。但最难的也在于此，毕竟场景千变万化，实际应用也会遇到各种意想不到的困难。在这一过程中，学界和业界的共同参与尤为关键。当前大模型的创新虽层出不穷，但真正走到产业化落地的为数不多。

华为通过前期与业界伙伴的共同探索， 开创了一条大模型产业化落地的新模式，即围绕某个领域的大模型成立产学研用的产业联合体，打通科研创新到产业落地整个流程 。这样一来，大模型的创新既可以更准确地契合行业场景需求，又能够促进产业合作伙伴直接基于大模型创新孵化行业应用。

这种大模型产业化新模式已经取得丰硕成果。2021 年底，华为与合作伙伴基于全球首个三模态大模型紫东. 太初和全球首个智能遥感框架武汉. LuoJia，分别成立了多模态人工智能产业联合体和智能遥感开源生态联合体。今年 9 月，华为围绕业界首个工业流体仿真大模型「东方. 御风」以及西工大的 AI 湍流大模型成立了智能流体力学产业联合体。

目前，多模态人工智能产业联合体已经发展了 45 家成员单位，并基于紫东. 太初大模型在智能制造、智慧城市、智慧文旅等数十个行业中孵化了近 60 个创新应用。

除了前文提到的千博手语教考一体机，杭州市文旅局和杭州移动基于紫东. 太初打造了杭州智能文旅虚拟人「杭小忆」，其具备了图文音 AI 能力，提供中文问答、诗文生成和以文搜图等功能，通过交互式体验让你身临其境地了解杭州文化。

虽然已经有了一些卓有成效的落地应用，但多模态人工智能产业联合体对于未来有更广阔的发展规划。首先发布「紫东. 太初」大模型开放服务平台，支持模型小样本训练和一键微调，满足大模型落地产业的多样需求；其次开源当前业界最大的中文多模态训练数据集「紫东. 太素」，加快企业场景化创新速度；最后为大模型加入知识约束，将大模型与行业场景深度结合，构建从现实世界学习知识的能力。

同样，智能遥感开源生态联合体也已发展了 39 家成员单位，孵化 30 多个解决方案。对于未来发展，智能遥感开源生态联合体也将持续科研创新，在智能解译的精度和适用性、鲁棒性等方面持续突破；开源开放了 LuoJiaNET/SET 服务平台，助力智能遥感行业应用的快速构建；后续也会丰富更多的 API 提升客户使用便捷性。

接下来，华为还将继续与合作伙伴一道围绕电磁智能、智慧育种和 AI 生物制药等领域成立产业联合体，促进这些领域的大模型创新和产业化落地。

结语

我们知道，从 Bert 和 GPT-3 以来，炼大模型潮流已经不可阻挡。大模型可以增强 AI 的通用性，更成为 AI 技术和应用的新基座。但顺利发挥大模型在融合科技创新、赋能产业化落地中的作用，还需要参与各方采取行之有效的发展战略。

作为领域重要参与者和推动者，华为致力于联合学界和业界伙伴形成完整的大模型发展路径，从基础的计算设备，到大模型的训练、微调、推理部署全流程，再到创建大模型产业联合体，构建了一套融合了易用性与强性能的大模型完整解决方案。

未来，持续大模型自身创新、跨越科研与应用之间的鸿沟势必将成为华为以及业界其他大模型玩家的长久命题。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多