文 / 孙凌云,潘越
摘 要:
本文介绍了大模型在设计领域带来的变革。首先探讨了大模型如何开启大知识,并分析了由此产生的新趋势;然后,从设计对象多样化和设计方法与模式变革两个角度,探讨了大模型带来的设计机遇与挑战,并分析了大模型时代下个体所需的新能力。 关键词:
人工智能;大模型;GPT 技术;设计
0 引言
2022 年 11 月,ChatGPT 将人工智能(AI)大模型带入了公众视野。其中,Chat 代表该产品采用聊天对话的交互形式,允许任何用户使用自然语言提出问题或表达需求;GPT 是 Generative Pre-trained Transformer的缩写,Transformer 技术作为大模型的标志性底层技术,由 Google 在 2017 年推出。ChatGPT 发布时基于 GPT-3.5 模型。2023 年 3 月,GPT-4 模型发布;同年 11 月,OpenAI 开放了 GPTs,使用户能够通过自然语言指令构建 GPT 应用。2024 年 1 月,GPT Store 正式上线。目前,OpenAI 已开放了 GPT-4V(视觉)、 Code Interpreter(代码)、DALLE-3(图像)、TTS(文本到语音)的 API(应用程序接口)。
2024 年,大模型的发展呈现出百家争鸣的局面,一方面,不同公司推出的通用基础大模型和行业大模型不断实现技术突破和能力更新;另一方面,将大模型技术转化为创新应用的探索,在不同产业和垂直领域中仍然热度不减。
随着大模型技术和生成式人工智能的爆发式发展,设计领域也经历了深刻的变革。设计对象变得更加多样化,设计方法和模式的变化推动了设计范式的结构性转变。这为设计领域带来了前所未有的机遇,使设计的角色和重要性更加突出,同时也产生了伴随转型的种种挑战。
在大模型的发展背景下,本文首先阐述了大模型技术如何开启大知识,带来了人机协作的新工作模式、智能物种的大爆发和科技进步加速的新趋势;接着,从设计对象和设计方法两个维度,介绍了大模型对设计领域带来的宏观变化;最后探讨了大模型时代对个体能力提出的新要求。
1 大模型开启大知识
1.1 大模型背后的大数据
ChatGPT 成为互联网历史上最快突破 1 亿月活跃用户的应用之一,这归功于其在上线之初就展现出的超越大众当时认知的自然语言理解、生成和交互能力。通过聊天机器人的界面,ChatGPT 展示了多种能力,包括建模历史对话、保持对话语境的连续对话能力;从复杂内容中提取关键信息、归纳总结主题和意义的抽象概括能力;理解人类指令意图、模拟相应角色的语言模式及潜在知识来生成回复、执行任务的角色扮演能力;拆解问题、逐步求解的逻辑推理能力;根据用户反馈优化答案的更正错误能力;以及根据用户指令与问题描述生成程序代码的代码生成能力等。与 ChatGPT 相比,升级版GPT-4 不仅在各项能力上取得了显著进步,还支持输入图像和文本,表现出强大的图像理解能力,实现了从单模态大模型到多模态大模型的突破。
ChatGPT 所展现的强大综合能力离不开其前所未有的训练数据规模。这是因为预训练的本质可认为是由大规模数据集驱动的规律发现与学习过程。从 GPT-1 到 GPT-3,训练数据量从 4.6 GB 增长到了753 GB。主要模型数据集中的维基百科数据集、书籍、杂志期刊、Github 代码等为大模型带来了丰富的客观知识、故事讲述与反应能力,以及语言生成的严谨性和逻辑推理能力。同时,从 GPT-1 到 GPT-3,模型参数量也从 1.17 亿增加到 1 750 亿。OpenAI 并未公布训练 ChatGPT 和 GPT-4 的数据集来源和规模,但我们不难想象它们在数据模态和量级上的进一步突破。
在生成式人工智能领域,另一个代表性模型是由 Stability AI 于 2022 年 8 月发布的文本生成图像模型 Stable Diffusion。Stable Diffusion 能够根据用户提供的文本生成高质量的图像,其能力突破同样得益于背后数十亿训练图像数据的支持。
1.2 大模型开启大知识
海量训练数据使得大模型实现“读书破万卷,下笔如有神”。除了前文提及的能力突破之外,我们认为大模型的另一大贡献还在于大模型开启了大知识。本文将大模型开启大知识的主要特征归纳为三点——庞大的知识空间、知识表示和调用方式的更新,以及知识空间的可扩展性与大模型能力的可延伸性。
(1)庞大的知识空间 通过学习大量的人类知识,大模型形成的知识空间在规模上超越了任何单一个体。例如,以ChatGPT 为代表的大语言模型(large language model,LLM)通过对人类自然语言知识空间的大量语料进行学习,发展出了近似人类水平的自然语言理解与生成能力,并积累了丰富的世界知识。自然语言一直是记录和传递人类知识的主要方式之一,大量的人类知识通过自然语言这种形式化的手段得到了传承和发扬。然而,自然语言并非承载和表达知识的唯一手段,通过语言和文字传递的知识只是人类集体知识的一部分,还有人类心智模型、经验知识等难以用特定形式精确表述的隐性知识。对于语音、视觉、红外、3D 点云等多模态信息,现有的视觉大模型和多模态大模型已展现出一定的处理能力。随着全体人类知识的扩展和人工智能技术的发展,大模型的知识空间将愈发庞大。
2)知识表示和调用方式的更新 ChatGPT 等大模型的能力突破,使得自然语言成为新的“知识表示和调用方式”,允许任何用户使用自然语言来提出问题和表达需求。与互联网中通过搜索引擎使用关键词进行信息检索的方式相比,这种获取知识的方式更加自然。通过使用自然语言与大模型进行交互,每个个体的智慧得以与大模型的知识空间相互碰撞和激发。这种知识表示和调用方式的更新,为人类文明积累的海量知识打开了新的窗口。另一方面,在多模态大模型中,自然语言也将成为通用接口,使用户能够更直观、易用地控制和编辑大模型的内容生成。
(3)知识空间的可扩展性和大模型能力的可延伸性 一方面,大模型内部的知识空间会随着版本的更新得到扩充和更新。另一方面,可以将现有的各类基础大模型作为基座,通过引入和融合外部知识库,实现大模型知识空间与外部知识库的协同。在特定领域的模型应用方面,利用专业知识库对通用领域的预训练大模型进行相应领域的知识微调适配,将催生出越来越多适用于不同场景和领域的大模型创新应用。
1.3 通用人工智能的火花
2023 年 3 月,GPT-4 发布,其在多个领域的表 现接近人类水平,被视为通用人工智能(artificial general intelligence,AGI)的早期(但是仍不完整的)版本。同年 4 月,中共中央政治局会议首次提出重视通用人工智能的发展。2023 年 11 月,Google DeepMind 团队提出评估通用人工智能的六个关键原则,并进一步得到了 人工智能的系统分类方法,包括: ●Level 0(无人工智能) ●Level 1(涌现,相当于或略优于未受专门训练的普通人) ● Level 2 (胜任,至少达到熟练成年人的 50%水平) ● Level 3(专家,至少达到熟练成年人的 90%水平) ● Level 4(大师,至少达到熟练成年人的 99%水平) ● Level 5(超人,超越所有人类的表现)
在此基础上,研究人员对现有人工智能系统进行了评估。其中,ChatGPT、Llama 2、Gemini 尚处于 Level 1(涌现)阶段。
2024 年 2 月,OpenAI 推出了文生视频大模型Sora。其在视频生成领域的能力突破,再次引发了外界的广泛讨论。同年 3 月,Anthropic 发布了 Claude 3系列大模型,性能超越 GPT-4。随着大模型不断发展,其对包括设计领域在内的各领域影响日益增大。
2 大知识带来的新趋势
大模型开启“大知识”。以此为特征的大模型能力突破将在各个领域引发新的变化,本文将主要趋势概括如下。
2.1 人机协作的新工作模式
过去在讨论人机关系多元化时,人们常常根据计算机人工智能技术的局限性来界定人与计算机的关系。例如,在设计领域,设计师与人工智能的关系可能被分类为主仆关系、助理角色、师生关系或合伙人角色等。然而,随着大模型的兴起,人工智能在人机协作中的角色和作用变得更加显著,催生了人机协作的新工作模式。这种模式有望大幅提升生产效率,并降低运营成本。
举例而言,设计师可以利用文生图大模型来优化涉及图像生成的工作流程。一些设计师在 Stable Diffusion 的用户界面 ComfyUI 中结合 LCM 模型(latent consistency models)来完成故事板的绘制任务,通过简单操作就能让人工智能快速生成分辨率达标、符合故事板需求的图像。在建筑设计方面,设计师绘制线稿草图后,大模型可以基于这些线稿实时生成多组潜在的建筑效果图,使设计师能够更动态及时地对设计进行调整。此外,设计师还可以利用大模型的庞大知识库来获取知识支持、灵感启发和技术支持,以逐步完成涉及大量知识的设计任务。例如,有团队通过与大型模型逐步对话,一步步明确设计概念和设计空间,并最终细化到包括软件、材料选择、结构设计和制造方法在内的技术设计规范,从而完成了番茄采摘机器人的设计。
2.2 智能物种大爆发
如前文所述,经过特定领域的知识微调适配后,大模型将催生越来越多的垂直领域创新应用。这已经在教育、科研、编程、商业、设计等领域带来了许多更新、更智能的应用与服务,并且将带来更多可能性,迎来智能物种的大爆发。 一方面,由人工智能驱动的新形态产品、应用和服务将不断出现,更好地满足不同用户的需求。例如,智能代理(AI Agent)近来愈发受到关注,它能理解用户的指令,并在多变的环境中自主有效地完成任务。在人工智能硬件新物种方面,2023 年11 月发布的 AI pin 和 2024 年 1 月发布的 Rabbit R1 展示了人工智能实体化的初步形态。
另一方面,现有(成熟)产品或物种在大模型的驱动下,将展现全新的面貌。例如,“智能手机” 开始向“AI 手机”转型,“个人计算机”向“AI PC”转型。各大厂商正意欲通过人工智能重新设计手机和 PC 的体验。在稍远离日常生活的领域,人形机器人也在经历变革。2023 年 11 月,工信部印发《人形机器人创新发展指导意见》,提出人形机器人集成人工智能、高端制造、新材料等先进技术,有望成为继计算机、智能手机、新能源汽车后的颠覆性产品,将深刻变革人类生产生活方式,重塑全球产业发展格局。人形机器人的研发是一个软硬件一体的过程,大模型相当于为机器人提供了“大脑”,提升了机器人的通用能力、学习能力,进而增强了其环境感知、行为控制、人机交互等能力。随着人形机器人技术的加速发展,它们能更好地在与真实世界的交互中收集人类数据,利用大模型处理数据,并利用数据继续训练人工智能。这被认为是推动通用人工智能研究的一种可能途径。图 1 示出了大模型垂直领域创新的一些应用。
图 1 大模型垂直领域创新应用举例
2.3 科技进步加速
AI for Science,即“人工智能驱动的科学研究”,是由鄂维南院士在 2018 年提出的科学研究新范式。
这一范式强调利用人工智能技术解决科学研究中的数据分析等难题,借助机器学习在高维问题上的表示能力,刻画复杂系统的机理,创造科学模型,从而更高效、更具实用性地解决实际问题。结合以大模型为代表的新一代人工智能技术的能力飞跃,这一范式将进一步加速科技进步。具体而言,在大模型出现之前,从理论研究到产品的落地转换通常需要 20 余年。而在 AI for Science 的驱动下,这一周期可以缩短至 5 年左右。
未来学家 Peter Diamandis 曾在 2020 年预测,未来 10 年人们经历的科技进步将超过过去 100 年的总和,每个行业都将得到重塑。麦肯锡在 2021 年的技术趋势报告中指出,包括应用人工智能在内多个领域的技术储备已处于爆发的前夜,它们将重塑健康与材料科学、能源、交通等众多行业和领域。在2024 年,人们已经切身体会到过去几年科技飞速发展带来的效应,尤其是在人工智能应用广泛的领域。
设计的核心任务之一是将各种前沿科技进展转化为实际产品。如果未来 10 年的科技进步将超越过去 100 年的总和,那么未来 10 年甚至更短时间内的设计创新也将超过之前 100 年的总和。这将为设计领域带来巨大的空间和机会。
3 设计领域变革
随着人工智能技术的飞速发展,设计的边界不断拓宽,成为与人工智能、大数据、云计算等前沿技术深度融合的领域及跨学科实践载体。在ChatGPT 推出前,关于智能时代的设计的讨论已经呈现出日益广泛的趋势。2022 年 8 月,浙江大学与阿里巴巴联合发布的《产业数智化设计白皮书》指出,我国创新设计正在全面从以“计算机辅助设计” 为代表的“数字化”时代,迈入“数智化”时代。数智化技术已渗入设计活动各个阶段,在设计资产逐步数智化的同时,数智化设计已展现出比传统设计更卓越的能力。白皮书将洞察力、敏捷力、协同力视为数智化设计的特征能力。随着大模型开启“大知识”,设计领域正在经历新的变化。本文将从设计对象和设计方法这两个宏观层面出发,介绍大模型带来的设计领域变革。
3.1 设计对象多样化
下面将从人工智能技术作为设计对象的能力变化、大模型带来的交互逻辑更新,以及智能物种的爆发趋势三个方面来探讨大模型带来的设计对象多样化。
(1)人工智能作为设计对象和材料的能力突破与多样发展 人工智能的能力从低于人类逐渐向接近人类、高于人类发展。ChatGPT 发布后,人工智能领域的相关进展似乎也被按下了加速键。2023 年 3 月, Google 发布了具身化多模态语言大模型 PalM-E,它将机器人任务和视觉语言任务通过一个共同的表示形式组合在一起,实现了对不同模态(状态和 / 或图像)的多模态语言建模处理。同年 4 月,Meta 发布了 Segment Anything Model(SAM),能够自动分割图像中的所有物体,或是根据提示词分割相应物体,是计算机视觉和图像领域的重大突破。人工智能技术的能力突破与多样发展,丰富了设计对象的种类,将在不同领域催生设计创新,进而推动行业重塑。
(2)大模型交互方式和交互界面成为新设计对象 目前,数字产品普遍配备图形用户界面(graphical user interface,GUI)。用户通过鼠标、键盘、屏幕等与图形界面进行交互。ChatGPT 以对话机器人的形式,发展为生产力工具,显示出对话式用户界面(conversational user interface,CUI)和语言用户界面(Language user interface,LUI)在大模型赋能下的巨大潜力。一方面,大模型本身,以及由大模型驱动的创新数字应用的交互方式和交互界面成为新设计对象。另一方面,在大模型驱动下,数字空间、物理世界、人类空间的三元空间将更加融合。各行各业的产品的交互逻辑迎来了优化重塑的巨大空间。在包括虚拟现实、增强现实、混合现实、空间计算在内的虚实融合的用户体验中,自然用户界面(natural user interface,NUI)的交互逻辑、交互方式和界面设计也成为设计领域的新方向和设计对象。
(3)智能物种大爆发带来设计机会大爆发 如前文所述,大模型将带来智能物种爆发与科技进步加速。这为设计领域带来了巨大的空间和机遇,因为设计既承担着将各种前沿科技进展转化为实际产品的重要任务,也扮演着为新技术带来的新挑战提供新方案的关键角色。智能物种在丰富人们的体验,拓宽人们的想象边界的同时,也不可避免地会引发用户在接受新习惯与保持固有习惯之间的矛盾、技术适应等摩擦,这也将成为未来设计的新议题和新对象。
3.2 设计方法与模式变革
大模型将重塑所有设计方法与工具,在降低设计行业门槛的同时,也提升了设计的天花板。本文将这背后的设计方法与模式变化归纳为以下三点。
(1)大模型开启大知识,为设计过程提供系统化的知识支持 一方面,从头脑风暴、需求挖掘、文案处理到用户调研,大模型的知识空间、自然语言能力和多模态信息处理能力将为设计中的各环节提供支持。例如,用户画像常应用于用户需求分析。近年来,使用人工智能处理用户数据的自动化用户画像生成(automatic persona generation,APG)方法,已经在产品市场营销和企业推广等活动中得到应用。在大模型的支持下,APG 方法将更高效地从大量的用户数据中提取、融合有效信息,更精准地生成用户画像。另外,在概念创新设计的早期阶段,人类设计师可以利用大模型能力驱动的智能设计工具,通过引入外部知识,获得灵感激发,防止设计固化现象。此外,在前文曾提及的番茄采摘机器人的设计中,大模型则为从产品意义梳理、设计空间定义到原型设计的全流程提供了全面的知识支持和技术指导。
另一方面,以往设计师需要特定的设计工具来支持特定的设计任务,而随着 OpenAI 推出 GPTs,用户可以根据当下的需求和偏好来定制服务于特定任务的智能代理。在定制页面里,用简单的自然语言,比如“我要生成用于产品趋势分析的 GPT”,在系统的引导下逐步明确需求和风格,就可以生成胜任特定任务的 GPT。在 GPTs 刚发布时,就有人用不到 1 min 的时间创建了一个名为 Trend Analyzer的 GPT,它可以在 90 s 内为用户联网查找目标产品类别的最新趋势,并为其创建原型图片。这种形式为融合大模型知识空间、用户需求与外部知识提供了一条低门槛的路径,也能更便捷地为设计师在设计过程中提供支持。
(2)图像生成能力的提高,加速创意内容生产文生图大模型产品在图像生成方面取得了显著进步,能够用于素材生成、灵感激发和直接出图。这些产品的图像生成能力飞跃,重塑了设计过程中对专业技能要求最高、常常最为繁琐且耗时最长的环节,如画图、建模、渲染和效果图加工等。此外,图生图、图片融合等功能对于现有图片的创意加工、创意设计的灵感激发,以及组合创新的效果探索也作出了重要贡献。
目前,文生图大模型产品在可控性方面存在不足。例如,该领域的代表性产品 Midjourney 通过特定关键词、垫图、seed 值来调控固定模型,其可控性相对较弱。而另一代表性模型 Stable Diffusion,由于其开源属性,拥有更多的插件和模型,图片生成的可控性更强。2023 年初,ControlNet 技术作为Stable Diffusion 的一个重要控制组件问世,它赋予了文生图工具根据多种条件对单张图片进行细粒度受控变换的能力,从而提高了人工智能出图的可控性。
(3)设计范式将发生结构性变化 大模型赋能的设计工具不仅具备洞察力、敏捷力和协同力,而且还发展出了想象力和创造力。以 Adobe Sensei 和 Adobe Firefly 为 例,Adobe Sensei于 2016 年发布,提供了数据洞察、自动化任务和个性化体验等功能,以增强和简化工作流程。而Adobe Firefly 于 2023 年 3 月发布,并于同年 9 月正式商用。它专注于通过生成式人工智能释放创造力,提供包括设计元素生成、布局创建和风格应用等功能,支持设计师的创意探索,加速设计工作流程。在新智能工具成为主流的同时,设计师常用的主流工具也正在变得更加智能。
随着人与智能工具进行人机协作的工作模式成为主流,设计团队与设计价值链的变化将被催化。行业的门槛降低和生产效率的提高将导致设计团队的构成变化和角色调整。设计流程的各个环节效率的提升,以及壁垒环节的消除,使设计价值链的逻辑发生改变。以 2023 年春季在小红书上走红的“小绿裙”为例,相关博主在小红书上使用人工智能绘画制作女生头像,她的专业背景与服装设计并无直接关联。“小绿裙”并非博主生成图像时的意图,却意外在小红书上获得了极高的人气。在用户驱动下,这款裙子被商家打版生产并销售。这种由用户利用工具生成设计图,再由用户推动生产制造的C2M(customer-to-manufacturer)模式,正在迅速改变传统的电商逻辑。
智能时代的设计范式的特征之一是难以框定清晰的边界,这是因为随着技术的发展,设计方法与模式的变化时刻在发生,使得人们难以捕捉到精确的时间点来标记、描述和锁定特定的范式。然而,可以肯定的是,我们正在见证设计领域前所未有的变革。数智化设计在洞察力、敏捷力和协同力得到提升的同时,正表现出强大的想象力和创造力。这种不断变化的设计将在未来扮演更加重要的角色。
4 结语:大模型时代的个人能力重塑
本文介绍了在大模型背景下,大模型如何开启 “大知识”,以及由此产生的新趋势。在设计领域变革方面,从设计对象和设计方法两个层面出发,探讨了人工智能技术能力的演变、大模型的交互逻辑、智能物种的爆发趋势如何带来设计对象的多样化,大知识和知识智能载体如何为设计提供知识支持,多模态大模型如何加速内容创意生产,以及设计价值链的调整等设计方法与范式的变化。
大模型正不可阻挡地重塑设计领域的各个方面,这对所有利益相关者的个体能力提出了新的要求。首先,设计师、设计研究者、设计专业学生等群体需要从观念和行动上突破惯性思维,从建立基本的人工智能意识开始,积极拥抱和使用前沿智能工具,将这些工具融入个人或组织的工作流程中。在积极应用这些工具的过程中,与人工智能共同成长,实现自身能力的重构和提升。然而,在发挥技术优势的同时,也要认识到技术的边界和局限性。例如,大模型可能会产生“幻觉”,即看似正确的生成结果中可能包含虚假信息和错误信息。其次,个体应当掌握如何有效调用知识的能力,重视围绕知识的方法论和系统论。随着自然语言成为一种有效调用知识的新方式,个体应更加关注并理解知识的产生过程和原理,并在此基础上,通过深入学习提示词工程等方法,更好地利用 GPT 来调用知识。最后,学会在模糊和不确定性中找到方向。在快速变化的世界中,不仅要学会驾驭模糊的能力,还要具备正确的价值观和积极的人格特质,坚定地为推动领域进步和人类文明的发展做出贡献。
(参考文献略)
孙凌云
CAAI 智能创意与数字艺术专委会主任,浙江大学国际设计研究院院长、计算机科学与技术学院副院长,教授。研究利用人工智能赋能设计行业,提出人工智能时代下的设计范式,应用于数字创意、智能硬件设计等领域。
潘越
浙江大学计算机科学与技术学院设计学博士后。主要研究方向为设计科学与创新工程。
选自《中国人工智能学会通讯》 2024年第14卷第4期 智能创意与数字艺术专题
扫描加入我们 获取更多学会资源