累计设计 10 亿次海报，阿里 AI 设计师「鲁班」核心技术详解

会员服务 ·

累计设计 10 亿次海报，阿里 AI 设计师「鲁班」核心技术详解

2018 年 4 月 23 日 雷锋网 思颖

▲点击上方雷锋网关注

文 | 思颖

来自雷锋网（leiphone-sz）的报道

2018 年 4 月 21 日，在阿里巴巴 UCAN 用户体验设计论坛上，「鲁班」创始人、阿里巴巴智能设计实验室负责人乐乘向现场观众展示「鲁班」的设计能力，台下掌声雷动。

这是一场以设计师为主要观众的论坛，对于设计师来说，他们的工作往往包含许多重复性体力劳动，比如裁切素材、调整图片大小、修正白平衡等，而「鲁班」基本上能包揽上述绝大部分内容，这大大解放了设计师的双手。

「鲁班」是阿里巴巴自研的一款设计人工智能产品，目前累计设计 10 亿次海报。据雷锋网(公众号：雷锋网) AI 研习社了解，2017 双 11 期间，鲁班一天制作 4000 万张海报，并且每张海报都是根据商品图像特征专门设计。

据乐乘介绍，「鲁班」的设计能力已经接近高级设计师水平，他们将会开放「鲁班」的一键生成、智能创作、智能排版、设计拓展四个核心能力，目前有 100 个免费内测名额，大家可以点击 luban.aliyun.com 申请。他表示，在未来，即使是设计小白，也可以通过「鲁班」一键生成自己的海报。

「鲁班」的核心算法技术由阿里巴巴达摩院机器智能技术实验室研发，在强化学习、平面设计美学量化评估、知识图谱方面分别联合伦敦大学学院、清华大学、浙江大学团队。得益于深度学习、增强学习、蒙特卡洛树搜索、图像搜索等技术以及大量设计数据，「鲁班」可以通过自学获得设计能力。

雷锋网 AI 研习社了解到，「鲁班」包括规划网络、行动器、评估网络三大核心部分。

图：「鲁班」进行风格学习

规划网络的基础来源于设计师的创意设计模板和基本元素素材，设计师将大量设计素材进行结构化数据标注，最后经由一系列人工智能网络学习，输出空间+视觉的设计框架。

图：元素分类器对输入的素材进行识别及分类

行动器根据「鲁班」收到的设计需求，从学习网络中抽取设计原型，并从元素中心中选取元素，规划输出多个最优生成路径，完成图片设计。

图：鲁班行动器规划最优设计生成

评估网络的工作原理是输入大量的设计图片和评分数据，训练鲁班学会判断设计的好坏。

图：评估得分

作为阿里巴巴智能设计实验室负责人，乐乘主要负责「鲁班」的数据、产品、设计和业务，达摩院机器智能技术实验室资深算法专家星瞳则负责算法技术及后台视觉生成引擎系统，包括数据的分析处理，在线、离线流程，各类机器学习算法的研究。雷锋网 AI 研习社针对「鲁班」背后的技术细节与他们进行探讨，整理如下。

问：「鲁班」即将达到人类高级设计师水平，它的这一设计水平是如何衡量的？具体的考虑因素有哪些？

答：鲁班的设计取决于人类输入，输入水平决定了输出水平，我们有一个专门的团队来训练「鲁班」，目前它学完之后可以达到中级设计师水平，而想要达到高级水平，需要用到更大规模的数据，预计在今年下半年可以实现。

对于设计水平的衡量，需要从多个维度来考虑：

第一，从设计的合理性、美感上评估，这更多是设计行业评判设计师水平的通用标准。

第二，生成图片的使用效果如何。

第三，从美学和艺术的角度，这里可能不同的人会有不同的看法，这一部分也需要设计师参与评估。

问：「鲁班」项目 2015 年底启动至今，有哪些比较重要的时间节点？

答：总的来说有三个节点。

我们在两年多前，有了研发鲁班的想法，先做出了第一个 Demo，这是第一个节点。
第二个节点是 2016 年的双十一，我们想真正规模化地应用这一系统，当时，针对集团的特定场景，开发了一个版本，那个版本最重要的贡献，就是能够真正大规模地辅助线上系统。
但是那时候「鲁班」主要是针对阿里的一些场景应用，与外界目标群体的需求存在差异，之后我们又集中精力进行了这方面的研发，到目前，能满足不同群体的需求。这是第三个比较重要的节点。

通过时间的积累、越来越多的资源投入以及大家的一起努力，鲁班现在在某些场景下能输出很不错的结果。

问：「鲁班」对硬件的要求如何？

答：「鲁班」依赖于 GPU，目前大概需要几百个 GPU。同时，这一系统具有伸缩性，在双十一活动的高峰期，需要的 GPU 多一些，平时相对来说少一些。

问：「鲁班」系统在设计过程中，需要的原始数据量有多大？

答：2016 年双十一，我们利用「鲁班」设计出 1.7 亿张海报，那是比较早期的摸索。2017 年双十一，「鲁班」设计了 4 亿张海报，那时候我们投入了十多人的设计师团队，他们会创作出少量的元素以及符合双十一要求的基础数据，在投入数据规模方面，当时种子数据的量级在千级别，随着应用规模扩大，种子数据也有数量级的扩大。

问：在标注数据方面，需要投入大量人力成本，你们是如何解决这一问题的？

答：总的来说，启动的种子（需要极大人力投入的数据）在前期必不可少，但鲁班是一个不断进化的闭环系统，它具有自我评估能力，机器产生的数据，一部分可以直接用，还有一部分，可以经过人工的参与，去做进一步清理、编辑、打标等。随着处理数据越来越多，算法的力量越来越强大，人力成本会不断降低，之后，系统会越来越好，数据会像滚雪球一样往前走。

问：支撑「鲁班」系统的核心技术有哪些？

答：你可以认为「鲁班」系统是对 AI 算法的集中。

这一系统比较复杂，其中有针对设计数据的分类和分割算法；

在线规划生成的时候，又有一些序列学习算法；

同时，还使用到一些多 Agent 强化学习算法；

此外，我们也使用了一部分 GAN 的方法；

还有一系列其他的方法，比如大规模检索或特征表达。

算法层面，我们基本上覆盖了现在比较新的技术。此外，我们还会用到大规模分布式数据处理技术。

问：「鲁班」背后主要的技术难点有哪些？

答：我们前前后后花了两年多时间来研究「鲁班」系统，因为以前并没有比较好的可供参考的案例，很多技术及解决方法都要靠我们自己去探索。

虽然业界有很多利用 GAN 去做生成的案例，但这些技术并不能达到我们的目标——可控数字内容的生成。

此外，我们既要能满足可控，又要生成用户想要的内容，还得保证图片质量以及生成速度。

另外，还有几个典型问题：怎么利用多 Agent 强化学习，从粗到细地生成中间的结构；怎么利用一些特殊的特征去描述各种各样的元素；还有最基础的图像理解、对象分割问题。

目前，「鲁班」系统不可能像一般的深度学习算法，直接端对端就可以达成目标，相对来说它的逻辑比较复杂，使用单一的算法不能达到我们的目标。

问：前面提到多 Agent 强化学习，能具体解释「鲁班」中的这项技术吗？

答：这是我们与 UCL 汪军老师团队合作的一项技术。

具体来说，系统会根据用户的需求，得到一个非常粗粒度的结果，例如把一张图或者一个目标变成多个组成部分，可以将这些组成部分称为元素或者量化单元，并把它当做一个 Agent，这些 Agent 单独不能决定结果的好与坏，只有多个 Agent 同时才能决定。可以认为这是一个组合优化问题，这里就会用到多 Agent 强化学习技术。

问：未来还会基于已有的算法做出哪些改进与创新？

答：未来还有很多需要钻研的地方。

第一，基于 GAN 的一系列学习，尤其是照片级别、像素级别的生成算法，我们希望与学术界或业界不断合作、实验。

第二，我们的系统还是过于复杂，所以想找到比较好的系统工程办法，使得各方面都能更加高效。

第三，在设计知识图谱这一领域，希望与外界合作，做得更加完善和灵活。

第四，我们希望能更好地量化生成效果，设计水平是很难衡量的，我们希望在这里做出一些探索和改进。

我们目前的愿景是「所想即所见」，即用户想要什么图像，「鲁班」就生成什么样的图像。同时，我们也希望打造出能面向各种各样场景、实时在线、高效且惠普地生成高质图像的辅助系统。

- END -

雷锋网招AI业界记者、IOT记者若干

岗位职责：

跟进AI业界/IOT领域的正常报道、采访报道；

独立策划相关选题，撰写行业分析文章。