北大毕业的山区小学校长，给清华老朋友派了一个紧急任务

会员服务 ·

北大毕业的山区小学校长，给清华老朋友派了一个紧急任务

2021 年 12 月 29 日 量子位

金磊梦晨发自凹非寺
量子位报道 | 公众号 QbitAI

北大智能科学系毕业之后，乔丹做了好几年程序员。

然后他选择让人生驶入另一条轨道。

今年9月，乔丹来到四川大凉山支教，成为美姑县采红村晓明爱心小学的校长。

美姑县山高谷深，曾经是大凉山里最闭塞的县。

经过数年的脱贫攻坚，这里通路通网，吃穿基本不愁，学校的硬件设施也都不错，但孩子们对大山之外的认知仍然有限。

如何利用自己所长，开拓孩子们的视野，启发他们对科技的兴趣？乔丹觉得最好能让他们亲眼见一见科技产品。

不久前，乔丹给老朋友任星打了一通电话。任星今年刚从清华博士毕业，现在是华为云的研究员。

乔丹想邀请他来给爱心小学的71个孩子上一堂科技课。

经过一段时间筹备，这次让孩子们期待已久的科技课堂，终于在12月下旬到来。

任星和同事们带来精心准备的生动课程内容，比如AI技术如何用于保护雨林和大熊猫。

也带来许多新奇有趣的科技产品，包括VR眼镜、机器狗，还有能和孩子们互动的数字人“云笙”。

还有一件特殊的新年礼物。

紧急任务

美姑县冬季长达135天，山上风大，昼夜温差也大。

尽管当地已基本实现不愁吃不愁穿，但孩子们长得快，正处于活泼好动的年纪，很需要新的能御寒的冬衣。

这个看似简单的需求，却是一个不小的挑战。

一方面，这件冬衣需要适应山区孩子的需求。需要保暖防风、耐磨耐脏，还要内外两层设计并容易穿脱以应对昼夜温差。

另一方面，这样一套冬衣，传统上仅设计打样就大致需要3周，在这个流程下，根本来不及在新年前，把生产好的冬衣送到孩子们手上。

不过科技公司就有科技的办法，能让一项看似无解的紧急任务峰回路转。

此次冬衣设计方案，由AI与服装设计师联手完成，整个过程仅用了不到一周。

主设计师是来自广东时谛智能的刘晓茜，她带来了时谛智能的全链路数字化解决方案。

AI能力则来自华为云的盘古大模型。

更具体一点，是盘古系列中的多模态大模型。

模态，指的是文字、图像、视频等不同的信息表现形式。

多模态则是把不同类型数据结合起来，比如一张图像搭配上一段文字组成一对让AI去学习。

像这样的图文对，盘古多模态大模型学了10亿组，理解了图像与文字之间的联系，获得“以文生图”的能力。

在此基础上继续学习十万级时尚产业数据，得到更具体的根据描述生成服饰图片能力。

△华为云盘古多模态大模型服饰生成示意图，仅为文章配图，内容不做商用

在企划阶段，以往服装设计师会花大量时间在搜集资料、看参考上。

像是哪些颜色和图案正在流行？又有哪些面料符合项目需要？

根据调研结果，设计师收集素材的时间往往占整个制作周期的70%以上，真正花在设计上的时间仅为30%。

现在有了AI以文生图能力的帮助，设计师只需输入关键词就得到盘古多模态大模型生成的大量服饰图片作参考，而且这些款式都是独一无二的。

这就让设计师能够根据推荐结果快速积累灵感，节约大量时间。

盘古多模态大模型还针对时尚行业需求做了降低显存占用、提高推理速度等一系列优化。

当前在华为云提供的V100单卡上可实现分钟级推理，一次批量呈现128张服饰图片。

让设计师有了思路就能快速看到结果，避免重复消耗时间和精力，让灵感不被打断。

从AI的推荐中挑选出合适的款式后，设计师们争取了大量时间，得以快速进入更细致的二次创作阶段。

考虑到大凉山昼夜温差大、孩子们好动、长得快等因素，刘晓茜一方面将目光聚焦在了方便穿脱的两件式设计。

另一方面决定采用耐磨耐脏、防风防水的外层材质。这与盘古大模型推理生成的“派克服”款式不谋而合。

刘晓茜和其他设计师们根据盘古大模型批量提供的“派克服”参考版式，快速绘制出服装线稿。

随后将线稿和具有彝族特色的图案，如象征吉祥、美丽、幸福的马樱花纹，羊角纹，窗格纹等，导入时谛智能AI服装设计系统，在线对其进行材料、颜色、图案的搭配。

有了华为云提供的数据和云端算力，加上时谛智能的实时渲染技术，方案效果可以用真实3D渲染呈现。

修改也同样方便，时谛智能的在线协同设计平台支持云端及时修改，省去了反复打样的步骤，将设计周期从三周缩短到一周以内。

一套适合大凉山孩子的新年冬衣方案，就此快速面世。

除了缩短设计流程这个量变，AI和云技术也给服装设计行业带来质变。

多模态大模型可以依据大数据分析流行趋势，推荐流行的颜色、图案等元素，帮助设计师洞察消费需求。

具体这次冬衣项目设计中，盘古多模态大模型在短时间内向时谛智能设计师提供了两三百个方案，包括羽绒服、派克服等。

设计师只需从中选择最好的再作进一步精细调整，这对最终成品的质量也是一种提升。

在设计完成后的生产阶段，时谛智能利用其在时尚产业丰富的供应链资源储备，进行了服装的快速生产、二次加工。

在设计过程中得到的渲染结果图等数字资产也能直接用于制作宣传物料。

这样看来，华为云与时谛智能联手真正要做的，其实是用技术帮助传统服装产业数字化转型。

而远在大凉山的孩子们，在种种机缘巧合下成了第一批见证这一转型成果的人。

整个过程也被拍成了一部纪录片。

看过了纪录片里参与其中的每个人自己的经历与体会，接下来，不妨再看看故事的另一面。

从技术角度深入了解一下，是什么支撑着这一切成为现实。

单卡就能用的大模型

华为云盘古多模态大模型，是华为云盘古系列大模型之一。

此外还包括NLP大模型、CV大模型和科学计算大模型。

它的开发模式与BERT这样主流的大模型相匹配，采用的是一种“预训练+下游微调”的方法。

而之所以采用这种模式，是因为它的一大优点就是极具泛化能力。

通俗一点来说，就是可以做到“触类旁通”、“举一反三”。

华为云盘古大模型在训练自己的时候，也算是个“狠人”，用的是亿级图文对。

在这种参数规模的预训练之下，华为云盘古多模态大模型便有了较强的通用、泛化能力。

而在下游微调阶段，针对此次案例，它基于此再使用10万级的时尚产业数据做微调。

这样AI就理解了服装设计领域上更具体的知识。

比如，“羊毛精纺”对应哪种面料，“西装”对应哪种衣服，甚至“女士西装”都有哪些版型。

再把这些不同维度的知识组合在一起，多模态大模型就有了“以文生图”的核心能力。

虽然这种“两步走”的方法看起来比较简单，不过单是在预训练过程中，面对亿级别的参数量，效率便成为了一个老大难的问题。

对此，华为云盘古多模态大模型有自己的妙招：

左手CANN算子，右手MindSpore框架。

CANN是华为推出的异构计算架构，2018年推出1.0版本至今，已经迭代到了3.0版本。

目前它不仅可以在推理、训练场景中使用，还能够实现“端边云协同”。

这就意味着不必在不同的终端，再去开发不同的算子，大大提高了效率。

例如基于CANN，就能让ResNet-50模型的训练时间降低到28s。

MindSpore则是华为于2019年推出的全场景AI计算框架，其中的一大特色，就是具有全自动混合并行方案。

而华为云盘古大模型，基于这两大“法宝”之外，还融合了三种并行技术：模型并行、数据并行和流水线并行。

并且在算法层面上，华为云盘古多模态大模型还运用了渐进式可微分网络架构搜索、动态权重软标签生成等技术。

如此一套“组合拳”下来，即便是面对亿级海量参数，也能够大幅提高模型预训练的效率。

那么这个效率提高到了什么程度呢？

举个例子。

以往面对亿级的数据量，如果只用单节点8卡V100来训练，那么所消耗的时间就得按年来计算了。

而在华为云盘古多模态大模型这边，训练速度已经降至天的单位！

当然，“预训练速度快”只是华为云盘古大多模态模型的优势之一，它另外一个强项，就是擅于处理数据量少、小样本的问题。

关于这点的能力，已经在一些全球范围内公开的任务中有所体现。

例如在COCO以文搜图的零样本任务中，盘古多模态大模型已经超过业界标杆算法CLIP、ALIGN等，达到业界最佳精度。

华为云盘古多模态大模型的第三个特点，便是把“作坊式”的工作流程转变为“工厂模式”。

简单来说，就是不需要开发者参与太多频繁的手动工作：从零开始、独立调优、艰难迭代、推倒重来……

而是将传统的这些流程变得智能化和自动化，例如华为云盘古多模态大模型便提供了云服务化的AI开发工作流。

这就可以让下游用户，在模型准备到超参调优等环节中，只需要少量的样本数据，以及对模型提出性能要求就可以了。

而且不仅是训练速度快，在后续的推理过程，其效率也是极高。

例如在服装设计这个案例中，当前盘古多模态时尚大模型利用Attention Cache等技术加快推理速度，在华为云提供的单卡V100支持下，可以支撑分钟级推理速度。

……

以上便是华为云盘古多模态大模型，能够做到“节省70%时间，三天出数百方案”背后的原因了。

不仅如此，目前华为云还把这样的能力，更确切来说是接口，已经开放给了多家时尚设计公司调用。

但它要做的事情，还远不止于此。

盘古多模态大模型，还能带来些什么？

从信息处理的历程来看，多模态信息融合已然成为发展的必然趋势。

而华为云要做的，就是用“大模型”的方式，让这种进程加速度。

换言之，就是要将生活中普遍存在的信息元素（图像、声音、文字、味道、触感等），糅合到一起来处理。

并且还需得用高效的方式，对事物进行理解、思考和推理，以此来实现更高级的智能应用。

而这种方式，也被广泛认为是从限定领域的弱人工智能迈向通用人工智能路径的探索。

以这次在服装时尚行业的应用为例，正如刚才所述，华为云通过盘古多模态大模型的技术，加上时谛智能的全链路数字化解决方案，让设计这件事从传统的30天，一下子跃进到一周内。

在帮助提高效率的同时，还让设计师能够把更多的精力，投入在对服装设计的二次创作上。

但这只是华为云盘古多模态大模型“出道”目标的一隅，它目光所聚焦的是将这种能力拓展到更多的行业。

正如盘古研发团队所述：

将继续对盘古多模态大模型进行迭代演进，持续开发上游通用能力。

让盘古多模态大模型，演化成诸多盘古行业多模态大模型，从而加速盘古系列预训练大模型的上天（通用能力打造）与入地（行业落地）步伐。

而从更宏观的角度来看，华为云所做的事情，主旋律在于“改变”。

具体而言，就是通过科技、AI的力量，来改变人们的生活、生产方式。

这不，大凉山彝族的小朋友们便率先体验到了科技带来的改变和温暖。

而华为云盘古多模态大模型，也是这个主旋律中的一角。

那么华为云在接下来，又将会如何体现科技力量的温度呢？

值得拭目以待了。

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

大模型

关注 212

大模型是基于海量多源数据打造的预训练模型，是对原有算法模型的技术升级和产品迭代，用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习，以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。

【TPAMI2021】视觉智能的知识蒸馏与师生学习:回顾与展望, 20页pdf与218篇文献

专知会员服务

52+阅读 · 2021年8月4日

【ICML2021】多任务学习与元学习的衔接:面向高效训练与有效适应

专知会员服务

33+阅读 · 2021年6月18日

清华张钹院士等专刊文章：迈向第三代人工智能（全文收录）

专知会员服务

52+阅读 · 2020年10月11日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知会员服务

147+阅读 · 2020年7月26日

最新《深度学习噪声标签学习》综述论文，14页pdf

专知会员服务

101+阅读 · 2020年7月20日

【综述】面向视觉智能的知识蒸馏和Student-Teacher方法，附37页pdf下载

专知会员服务

68+阅读 · 2020年4月16日

【北京智源大会2019】视觉信息处理的闭环，北京大学信息科学技术学院长聘教授吴思

专知会员服务

30+阅读 · 2019年11月22日

【CCF优秀博士学位论文奖-2019】面向多种学习任务的深度生成模型，清华大学李崇轩

专知会员服务

49+阅读 · 2019年11月8日

【MLA 2019】对抗机器学习与对抗视觉，韩亚洪天津大学教授

专知会员服务

46+阅读 · 2019年11月6日

【ICCV 2019 Workshop】Adaptive Confidence Smoothing for Generalized Zero-Shot Learning，巴伊兰大学 Yuval Atzmon

专知会员服务

13+阅读 · 2019年10月31日

博士申请 | 清华大学交叉信息院赵行老师招收多模态学习、自动驾驶方向博士生

PaperWeekly

1+阅读 · 2022年3月21日

这届科技冬奥，就数这位北京大妞让人意想不到

量子位

0+阅读 · 2022年2月21日

冰墩墩设计师都在玩的AI创作，这次大模型出圈了！

量子位

2+阅读 · 2022年2月15日

一个模型通杀8大视觉任务，一句话生成图像、视频、P图、视频处理...都能行 | MSRA&北大出品

量子位

0+阅读 · 2021年11月27日

「AI在左，营销在右」互动营销创意破圈，这事儿不难

PaperWeekly

0+阅读 · 2021年11月16日

带AI无人车上云驾校，不出门练遍各大城市道路，华南理工大学团队拿下“互联网+”大赛金奖

量子位

0+阅读 · 2021年10月20日

明天上午 9:30！微软亚洲研究院 Ada Camp 喊你看直播啦

微软研究院AI头条

0+阅读 · 2021年8月16日

我与清华的二三事——写于清华大学110年校庆之际

新智元

1+阅读 · 2021年4月21日

冬日里的一首歌 | 清华快闪女指挥王明媚讲述背后的故事

清华大学研究生教育

59+阅读 · 2019年1月9日

【清研实践】用歌声唱出清华研究生“一带一路”上的实践故事

清华大学研究生教育

17+阅读 · 2018年12月14日

豫西中寒武世机会遗迹群落及沉积环境制约

国家自然科学基金

0+阅读 · 2015年12月31日

应用数学暑期学校（2015）

国家自然科学基金

5+阅读 · 2015年7月12日

煤与瓦斯突出的动力系统和能量机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

高通量微流控芯片ELISA检测法自动化病毒诊断系统基础研究

国家自然科学基金

0+阅读 · 2012年12月31日

个体和班组的诊断任务绩效影响因素研究

国家自然科学基金

1+阅读 · 2012年12月31日

无人车越野环境感知关键技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

物联网环境下生产车间调度控制方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

氟喹诺酮与ONOOH化学发光行为多样性的机理研究

国家自然科学基金

0+阅读 · 2012年12月31日

西南印度洋中脊热液沉积环境放线菌的多样性研究

国家自然科学基金

0+阅读 · 2012年12月31日

活动星系核过渡区结构和物理研究

国家自然科学基金

0+阅读 · 2009年12月31日

Unsupervised Ranking and Aggregation of Label Descriptions for Zero-Shot Classifiers

Arxiv

0+阅读 · 2022年4月20日

Few-Shot Learning with Siamese Networks and Label Tuning

Arxiv

1+阅读 · 2022年4月20日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Attention Mechanisms in Computer Vision: A Survey

Arxiv

58+阅读 · 2021年11月15日

Adaptive Synthetic Characters for Military Training

Arxiv

49+阅读 · 2021年1月6日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Diverse Image-to-Image Translation via Disentangled Representations

Arxiv

13+阅读 · 2018年8月2日

IEOPF: An Active Contour Model for Image Segmentation with Inhomogeneities Estimated by Orthogonal Primary Functions

Arxiv

10+阅读 · 2018年1月20日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

VIP会员