零门槛开发AI模型！国际AI科学家联合开源算法训练平台YMIR

2022 年 6 月 10 日 AI前线

采访嘉宾 | 王孝宇博士、胡文泽博士

作者 | 凌敏

5 月，YMIR 正式发布全新里程碑 1.0 版本，新增模型生产项目管理功能，并无缝对接开放免费的标注工具 LabelFree。

当前，人工智能商业化在算力、算法和技术方面基本进入成熟阶段，但在人才、规模化生产等方面仍存在诸多挑战。一方面，随着 AI 被越来越多地应用到千行百业中，AI 人才缺口逐渐增大，市场上缺乏熟练的 AI 开发人员；另一方面，AI 的广泛应用也带来了庞大的算法需求量，而算法的开发成本高、迭代周期长，企业难以规模化生产。

在此背景下，一个名为 YMIR（中文名：挖米匠）的数据驱动的开源算法训练平台应运而生。

YMIR 是一个数据驱动的模型生产平台。具体而言，YMIR 通过集成模型迭代的组件，能够做到以无代码开发的方式，将模型开发行为抽象为数据收集、模型训练、数据挖掘、数据标注等基本操作，并形成标准流程，提供一站式服务，帮助用户快速开发高质量的 AI 模型。此外，YMIR 还遵从 Apache 2.0 许可协议，商用及个人使用均免费。

项目官网：https://www.viesc.com/ymir.html

GitHub 地址：https://github.com/IndustryEssentials/ymir

试用申请地址：https://github.com/IndustryEssentials/ymir#12-apply-for-trial

值得一提的是，YMIR 的发起人员包括多位国内外 AI 大咖：前 Snap 计算机视觉主席、云天励飞首席科学家王孝宇；美国硅谷 NEC 实验室媒体分析部主管、UCSD 教授，印裔科学家 Manmohan Chandraker；前谷歌、亚马逊、Snap 机器学习研究员，硅谷初创公司 Heali 联合创始人、首席 AI 官，法裔科学家 William Brendel 等。此前，YMIR 几位发起人和核心开发人员撰写的论文《YMIR: A Rapid Data-centric Development Platform for Vision Applications》被国际顶级机器学习会议 NIPS 2021 收录。

近日，InfoQ 有幸采访到了云天励飞首席科学家、YMIR 发起人王孝宇博士，云天励飞未来工厂技术总监、YMIR 核心开发成员胡文泽博士，进一步了解 YMIR 的技术实践与研发历程。

YMIR 的设计理念及特性

“助力 AI 走向千家万户”是 YMIR 诞生的意义，也是它的终极目标。

王孝宇博士认为，人工智能是第四次工业革命，它会像计算机技术一样影响到每一个行业。“在 40 年前，如果你会使用电脑，会打字，大家会认为你具备一项电脑的专业技能。而在今天，我们发现每一个人都会用电脑，会打字。我们坚信在未来的 10 到 20 年，人工智能也会像计算机技术一样得到普及。

那么在这个过程中，我们需要一些技术性的平台去驱动它的发生，就像在计算机年代，微软的 Windows、Office 极大程度上驱动了电脑技术的普及一样，我们也需要这样一个平台，去驱动人工智能由专业化到大众化的普及。”

YMIR 正是这样一个低门槛的 AI 模型生产平台，它提供了一个端到端的 AI 开发系统。降低了使用人工智能的公司的成本，并加速了人工智能的采用。

“让各行各业有一个低成本的开发计算机视觉模型的方法，也让行业内有相似想法的开发者有一个共同的开发平台，真正地实现我们 AI 赋能百业的愿望，这就是为什么我们去打造 YMIR。”胡文泽博士表示。

开放式设计与数据驱动

据了解，YMIR 集成了主动学习方法、数据和模型版本控制以及工作空间等概念，应用在 AI 模型研发环节，专注于标准化的流程管理，降低 AI 模型研发的技能要求。使用者不需具备专业的 AI 技能，只要对数据集、模型训练、模型迭代等概念知识加以少量培训，便具备模型开发的能力。

具体而言，YMIR 具备五大特点：

流程化，遵循 RPA 设计理念，将模型开发过程流程化。
一站式，覆盖 AI 算法研发迭代端到端全过程。
开放式设计，可通过开放接口集成第三方标注工具、训练代码等。
无代码，采用图形化操作界面，降低算法开发门槛。
免费，平台对个人及商业用户完全免费。

其中，开放式设计主要是针对具备一定专业能力的算法开发人员，提供开放 API，使用者可藉此将自己开发的模型训练、数据挖掘、数据标注、模型诊断等工具对接 YMIR 开放接口实现端到端的一站式模型开发。

这也是 YMIR 团队挣扎许久做出的决策。据项目团队介绍，当时团队面临两个选择：一是自己写一套工具，做一个封闭的系统；二是做一套相对统一的开放接口，集成第三方工具，用开放的模块化方式去实现整套系统。

“显然这两种方式都有各自的优势，第一种方式比较快，但第二种方式对用户而言体验会更好。我们认为这也是一个平台真正的核心价值，不是封闭地将全部功能都实现一遍，而是要尽量充分地发挥平台中的每个角色自身的特点，再将各个角色串联起来。”胡文泽博士说道。

在王孝宇博士看来，“AI 的整个链条环节比较长，所以 YMIR 的设计理念就是保持开放性，同时注重流程化，形成一个有生产力的工具。”王孝宇博士坦言，从设计架构上来看，做一个封闭的系统复杂度更低，但 YMIR 选择仅将流程固定，每个环节开放化，让用户既能享受到平台化的红利，又能根据自己需求定制化生产 AI 模型。

YMIR 的另一个设计理念是采用数据驱动的方式，以数据迭代为中心，完成计算机视觉模型开发。据介绍，这也是国际上新出现的一种 AI 开发模式。

在过去，AI 模型开发通常以模型为中心，大多数的 AI 研究都集中在提升模型或者算法上。但作为 AI 研发过程中最重要的资产，数据也扮演着关键角色。甚至有些时候，调参数、改模型得到的收益，远远低于改数据并提高数据质量得到的收益。此外，也有数据表明，与以模型为中心的 AI 模型开发模式相比，以数据为中心的模型开发效率更高。

去年，知名 AI 学者吴恩达提出了机器学习中的二八定律：80% 的数据 + 20% 的模型 = 更好的 AI。他认为，一个机器学习团队 80% 的工作应该放在数据准备上，确保数据质量是最重要的工作。如果更多地强调以数据为中心而不是以模型为中心，那么机器学习的发展会更快。

YMIR 的设计理念与吴恩达的想法不谋而合。王孝宇博士表示，“人工智能已经从技术驱动发展到数据驱动，YMIR 采用数据驱动的设计思维，并将其体现在显著位置，目的是希望用户可以将精力更多地放在高质量数据的获取，以及数据的迭代上。”

在 AI 模型开发的周期里，模型迭代占据 90% 以上的时间，而数据迭代是模型迭代的关键部分，通过不停地挖掘数据、添加数据，快速提升模型的精度。而 YMIR 主要以数据为中心，集成了数据和模型版本控制，同时引入工作空间等概念，实现多个模型开发任务的并行快速迭代，为模型的大规模批量生产提供平台性支持。

研发历程与未来规划

YMIR 的正式启动时间是在去年春天，但早在 2015 年，团队就已设计出了产品的早期雏形，只是当时并没有集团化的力量继续推动。经过几年的技术积累，2021 年三四月份，YMIR 项目正式启动。除了此前提到的多位国外 AI 大咖参与讨论产品设计和未来方向，YMIR 研发团队还聚集了十余位技术人员。

回顾 YMIR 的整个研发历程，王孝宇博士表示，在第一阶段，团队做的关键事情是确定 YMIR 的开源设计思想，并实现了端到端的模型研发过程。“我们采用模块化的设计，开源且开放，避免将其打造成封闭的系统。”

完成 YMIR 的基本功能后，团队开始在产品的易用性上下功夫，“我们都是懂这套产品的人，但在设计上需要假定用户完全不懂。一开始，我们在易用性设计上会有偏差，在与用户打交道之后，也会有新的收获，一步步完善产品体验。”

下一步，YMIR 将提供更多的训练方法、可视化方法，以及数据标注方法。“数据标注方面，目前我们支持两套标注工具。算法方面，目前主要支持检测的算法，后续也会支持分割以及其他算法的镜像，并继续提升产品的易用性。”

YMIR 1.0 有哪些新变化？

2022 年 5 月，YMIR 正式发布全新里程碑 1.0 版本。

与上一版本相比，新版本引入了项目管理式的工作流程，使 AI 模型的生产进一步标准化。在以项目管理为理念的研发制式下，模型研发项目被切分为几个关键模块。每个模块对应一个任务，这些任务具备前后依赖关系形成研发流程。只有流程前方任务完成后，流程后方任务才能被启动。

新版本还新增数据集版本管理功能，能自动生成数据集版本并记录每次对数据集的操作。使用者无需通过手动命名数据集对不同功能数据集进行区分，系统会自动进行数据整理，归入训练集、挖掘集、测试集等，并对这些数据集的更新进行版本控制。数据集和模型的一一对应关系亦被记录下来。

此外，新版本还可无缝对接开放免费的标注工具 LabelFree。LabelFree 是一个开放的、可私有化部署的高性能数据标注系统，其操作简单、数据可靠，为算法服务提供可靠的底层数据支撑。

LabelFree GitHub 地址：https://github.com/IndustryEssentials/label-free

由于使用门槛较低，YMIR 的应用场景相当广泛，尤其在项目开源之后，团队发现 YMIR 可以在各式不同的行业中得到应用，甚至有些原本离人工智能相对较远的企业，也能利用 YMIR 解决自身的业务问题。

比如服务业一般都有统一的着装要求，不同的企业也有不同款式的工作服，企业通过 YMIR 定制工作服模型，可以有效降低开发成本。在物流和仓储行业，企业经常会遇到货物堆积问题，通过模型培训，可以识别并估算每个仓库的快递包裹数量，及时转移快递包裹，有效规避仓库爆仓的风险。

此外，也有一些本身具备 AI 能力，但核心能力聚焦在其他方面的技术公司，也会采用 YMIR 提升业务效率。

“很多大企业在研发 AI 模型时都有自己统一的平台、常用的工具，彼此之间井水不犯河水，但这不利于 AI 技术的普及，以及彼此间的沟通和交流。YMIR 的特点在于它具有普适性和开放性。同时，在未来，这种规模化、平台化的 AI 研发一定会成为趋势。”

王孝宇博士表示，一项技术如果能得到大众的广泛采用，那么这项技术也将迅速迭代，就像过去无线电话发展到民用阶段，经过大规模地采用后，手机芯片也实现了跨越式发展，“我们希望 YMIR 可以达到四两拨千斤的效果”。

AI 模型开发将朝向

平台化与多融合发展

通常而言，典型的 AI 模型开发可以概括为几个步骤：定义任务、准备数据、训练模型、评估模型和部署模型。在过去，这个流程需要开发者具备多项技能，如掌握常用的 AI 开发语言，了解机器学习和深度学习相关算法，等等。随着 YMIR 这类零门槛 AI 模型开发平台不断涌现，AI 模型开发将从“神坛”变得越来越“平民化”，真正进入千家万户。

在王孝宇博士看来，AI 模型开发在未来将呈现两个发展趋势：平台化与多融合。

“在未来，每一家企业都会从 AI 的角度去看如何提升生产力，即使不使用 AI 的能力，也必须要有 AI 的思维去设计整套研发流程，让整个流程更智能化、数字化。这也会使得越来越多的企业开始采用 AI 模型开发平台，并加入到这类平台的开发和完善中。”

此外，在未来，AI 技术也将走向多融合发展。

事实上早在去年，多融合 AI 技术就已得到了应用。2021 年年初，OpenAI 推出了两个结合计算机视觉和 NLP 结合的多模态模型：DALL-E 和 CLIP，前者可以基于文本生成图像，后者可以基于文本对图片进行分类。2022 年 4 月，OpenAI 发布升级版 DALL-E 2，除了能基于文本生成图像，还能二次创作。

“目前 AI 应用比较多，也比较成熟的领域包括自然语言处理、计算机视觉，但这几个方向在实际应用的交叉并不多。随着视觉算法越来越多，我们对视觉理解的维度越来越高；自然语言处理的模型越来越精确，我们对语音的识别越来越准确，必将会融合出新的技术和应用，并且现在已慢慢有这样的发展趋势。”王孝宇博士说道。

写在最后：开源加速 AI 技术发展

回看 AI 技术的整个发展历程，可以清晰地看到开源在其中起到的促进作用，毫无疑问，开源大大加速了 AI 技术的发展。也正因如此，越来越多的 AI 项目选择开源，形成正向反馈。

王孝宇博士表示，开源有几大益处：第一，避免“重复造轮子”，大幅节约开发者时间；第二，当大家采用同一套开源框架时，技术能够得到快速迭代。“通过开源可以把模型、项目经验等分享给更多的人，这对产业界的繁荣也起到了促进作用。”

而至于一个开源项目才能走得更远，王孝宇博士认为，首先，产品要真正有用，有用户需求，这个是核心。其次，要有持续的研发投入，就像模型迭代一样，开源项目也需要不断迭代，更好地适配业界需求。

今日荐文

点击下方图片即可阅读

谷歌亮出 AI“王牌”，生成超逼真图片，网友：OpenAI DALL-E 要被碾压了？

你也「在看」吗？👇

登录查看更多

相关内容

深圳云天励飞技术股份有限公司

关注 0

深圳云天励飞技术股份有限公司成立于2014年8月，作为国内领先的拥有AI算法芯片化能力的数字城市整体解决方案提供商，公司致力于通过AI技术进行物理世界结构化，打造数字孪生城市。公司依托一流的国际化专家团队和“全栈式”AI技术平台，打造了面向公共安全、城市治理、新商业等领域的产品和解决方案，以深圳先行示范区-粤港澳大湾区的双区驱动为基点，以青岛、成都、长沙、南京、杭州、上海、北京等城市为灯塔，业务辐射国内外100多个城市

2021年中国云原生AI开发平台白皮书

专知会员服务

58+阅读 · 2021年12月4日

南大周志华团队开源深度森林软件包DF21：训练效率高、超参数少，普通设备就能跑

专知会员服务

21+阅读 · 2021年2月1日

最新TensorFlow2.0机器学习实用指南—第二版（附279页pdf下载）

专知会员服务

278+阅读 · 2020年6月9日

TensorFlow开发者峰会2020 Keynote，TF2及其庞大的科研、工业生态圈

专知会员服务

26+阅读 · 2020年3月20日