当前,人工智能商业化在算力、算法和技术方面基本进入成熟阶段,但在人才、规模化生产等方面仍存在诸多挑战。一方面,随着 AI 被越来越多地应用到千行百业中,AI 人才缺口逐渐增大,市场上缺乏熟练的 AI 开发人员;另一方面,AI 的广泛应用也带来了庞大的算法需求量,而算法的开发成本高、迭代周期长,企业难以规模化生产。
在此背景下,一个名为 YMIR(中文名:挖米匠)的数据驱动的开源算法训练平台应运而生。
YMIR 是一个数据驱动的模型生产平台。具体而言,YMIR 通过集成模型迭代的组件,能够做到以无代码开发的方式,将模型开发行为抽象为数据收集、模型训练、数据挖掘、数据标注等基本操作,并形成标准流程,提供一站式服务,帮助用户快速开发高质量的 AI 模型。此外,YMIR 还遵从 Apache 2.0 许可协议,商用及个人使用均免费。
项目官网:https://www.viesc.com/ymir.html
GitHub 地址:https://github.com/IndustryEssentials/ymir
试用申请地址:https://github.com/IndustryEssentials/ymir#12-apply-for-trial
值得一提的是,YMIR 的发起人员包括多位国内外 AI 大咖:前 Snap 计算机视觉主席、云天励飞首席科学家王孝宇;美国硅谷 NEC 实验室媒体分析部主管、UCSD 教授,印裔科学家 Manmohan Chandraker;前谷歌、亚马逊、Snap 机器学习研究员,硅谷初创公司 Heali 联合创始人、首席 AI 官,法裔科学家 William Brendel 等。此前,YMIR 几位发起人和核心开发人员撰写的论文 《YMIR: A Rapid Data-centric Development Platform for Vision Applications》被国际顶级机器学习会议 NIPS 2021 收录。
近日,InfoQ 有幸采访到了云天励飞首席科学家、YMIR 发起人王孝宇博士,云天励飞未来工厂技术总监、YMIR 核心开发成员胡文泽博士,进一步了解 YMIR 的技术实践与研发历程。
“助力 AI 走向千家万户”是 YMIR 诞生的意义,也是它的终极目标。
王孝宇博士认为,人工智能是第四次工业革命,它会像计算机技术一样影响到每一个行业。“在 40 年前,如果你会使用电脑,会打字,大家会认为你具备一项电脑的专业技能。而在今天,我们发现每一个人都会用电脑,会打字。我们坚信在未来的 10 到 20 年,人工智能也会像计算机技术一样得到普及。
那么在这个过程中,我们需要一些技术性的平台去驱动它的发生,就像在计算机年代,微软的 Windows、Office 极大程度上驱动了电脑技术的普及一样,我们也需要这样一个平台,去驱动人工智能由专业化到大众化的普及。”
YMIR 正是这样一个低门槛的 AI 模型生产平台,它提供了一个端到端的 AI 开发系统。降低了使用人工智能的公司的成本,并加速了人工智能的采用。
“让各行各业有一个低成本的开发计算机视觉模型的方法,也让行业内有相似想法的开发者有一个共同的开发平台,真正地实现我们 AI 赋能百业的愿望,这就是为什么我们去打造 YMIR。”胡文泽博士表示。
据了解,YMIR 集成了主动学习方法、数据和模型版本控制以及工作空间等概念,应用在 AI 模型研发环节,专注于标准化的流程管理,降低 AI 模型研发的技能要求。使用者不需具备专业的 AI 技能,只要对数据集、模型训练、模型迭代等概念知识加以少量培训,便具备模型开发的能力。
具体而言,YMIR 具备五大特点:
流程化,遵循 RPA 设计理念,将模型开发过程流程化。
一站式,覆盖 AI 算法研发迭代端到端全过程。
开放式设计,可通过开放接口集成第三方标注工具、训练代码等。
无代码,采用图形化操作界面,降低算法开发门槛。
免费,平台对个人及商业用户完全免费。
其中,开放式设计主要是针对具备一定专业能力的算法开发人员,提供开放 API,使用者可藉此将自己开发的模型训练、数据挖掘、数据标注、模型诊断等工具对接 YMIR 开放接口实现端到端的一站式模型开发。
这也是 YMIR 团队挣扎许久做出的决策。据项目团队介绍,当时团队面临两个选择:一是自己写一套工具,做一个封闭的系统;二是做一套相对统一的开放接口,集成第三方工具,用开放的模块化方式去实现整套系统。
“显然这两种方式都有各自的优势,第一种方式比较快,但第二种方式对用户而言体验会更好。我们认为这也是一个平台真正的核心价值,不是封闭地将全部功能都实现一遍,而是要尽量充分地发挥平台中的每个角色自身的特点,再将各个角色串联起来。”胡文泽博士说道。
在王孝宇博士看来,“AI 的整个链条环节比较长,所以 YMIR 的设计理念就是保持开放性,同时注重流程化,形成一个有生产力的工具。”王孝宇博士坦言,从设计架构上来看,做一个封闭的系统复杂度更低,但 YMIR 选择仅将流程固定,每个环节开放化,让用户既能享受到平台化的红利,又能根据自己需求定制化生产 AI 模型。
YMIR 的另一个设计理念是采用数据驱动的方式,以数据迭代为中心,完成计算机视觉模型开发。据介绍,这也是国际上新出现的一种 AI 开发模式。
在过去,AI 模型开发通常以模型为中心,大多数的 AI 研究都集中在提升模型或者算法上。但作为 AI 研发过程中最重要的资产,数据也扮演着关键角色。甚至有些时候,调参数、改模型得到的收益,远远低于改数据并提高数据质量得到的收益。此外,也有数据表明,与以模型为中心的 AI 模型开发模式相比,以数据为中心的模型开发效率更高。
去年,知名 AI 学者吴恩达提出了机器学习中的二八定律:80% 的数据 + 20% 的模型 = 更好的 AI。他认为,一个机器学习团队 80% 的工作应该放在数据准备上,确保数据质量是最重要的工作。如果更多地强调以数据为中心而不是以模型为中心,那么机器学习的发展会更快。
YMIR 的设计理念与吴恩达的想法不谋而合。王孝宇博士表示,“人工智能已经从技术驱动发展到数据驱动,YMIR 采用数据驱动的设计思维,并将其体现在显著位置,目的是希望用户可以将精力更多地放在高质量数据的获取,以及数据的迭代上。”
在 AI 模型开发的周期里,模型迭代占据 90% 以上的时间,而数据迭代是模型迭代的关键部分,通过不停地挖掘数据、添加数据,快速提升模型的精度。而 YMIR 主要以数据为中心,集成了数据和模型版本控制,同时引入工作空间等概念,实现多个模型开发任务的并行快速迭代,为模型的大规模批量生产提供平台性支持。
YMIR 的正式启动时间是在去年春天,但早在 2015 年,团队就已设计出了产品的早期雏形,只是当时并没有集团化的力量继续推动。经过几年的技术积累,2021 年三四月份,YMIR 项目正式启动。除了此前提到的多位国外 AI 大咖参与讨论产品设计和未来方向,YMIR 研发团队还聚集了十余位技术人员。
回顾 YMIR 的整个研发历程,王孝宇博士表示,在第一阶段,团队做的关键事情是确定 YMIR 的开源设计思想,并实现了端到端的模型研发过程。“我们采用模块化的设计,开源且开放,避免将其打造成封闭的系统。”
完成 YMIR 的基本功能后,团队开始在产品的易用性上下功夫,“我们都是懂这套产品的人,但在设计上需要假定用户完全不懂。一开始,我们在易用性设计上会有偏差,在与用户打交道之后,也会有新的收获,一步步完善产品体验。”
下一步,YMIR 将提供更多的训练方法、可视化方法,以及数据标注方法。“数据标注方面,目前我们支持两套标注工具。算法方面,目前主要支持检测的算法,后续也会支持分割以及其他算法的镜像,并继续提升产品的易用性。”
2022 年 5 月,YMIR 正式发布全新里程碑 1.0 版本。
与上一版本相比,新版本引入了项目管理式的工作流程,使 AI 模型的生产进一步标准化。在以项目管理为理念的研发制式下,模型研发项目被切分为几个关键模块。每个模块对应一个任务,这些任务具备前后依赖关系形成研发流程。只有流程前方任务完成后,流程后方任务才能被启动。
新版本还新增数据集版本管理功能,能自动生成数据集版本并记录每次对数据集的操作。使用者无需通过手动命名数据集对不同功能数据集进行区分,系统会自动进行数据整理,归入训练集、挖掘集、测试集等,并对这些数据集的更新进行版本控制。数据集和模型的一一对应关系亦被记录下来。
此外,新版本还可无缝对接开放免费的标注工具 LabelFree。LabelFree 是一个开放的、可私有化部署的高性能数据标注系统,其操作简单、数据可靠,为算法服务提供可靠的底层数据支撑。
LabelFree GitHub 地址:https://github.com/IndustryEssentials/label-free
由于使用门槛较低,YMIR 的应用场景相当广泛,尤其在项目开源之后,团队发现 YMIR 可以在各式不同的行业中得到应用,甚至有些原本离人工智能相对较远的企业,也能利用 YMIR 解决自身的业务问题。
比如服务业一般都有统一的着装要求,不同的企业也有不同款式的工作服,企业通过 YMIR 定制工作服模型,可以有效降低开发成本。在物流和仓储行业,企业经常会遇到货物堆积问题,通过模型培训,可以识别并估算每个仓库的快递包裹数量,及时转移快递包裹,有效规避仓库爆仓的风险。
此外,也有一些本身具备 AI 能力,但核心能力聚焦在其他方面的技术公司,也会采用 YMIR 提升业务效率。
“很多大企业在研发 AI 模型时都有自己统一的平台、常用的工具,彼此之间井水不犯河水,但这不利于 AI 技术的普及,以及彼此间的沟通和交流。YMIR 的特点在于它具有普适性和开放性。同时,在未来,这种规模化、平台化的 AI 研发一定会成为趋势。”
王孝宇博士表示,一项技术如果能得到大众的广泛采用,那么这项技术也将迅速迭代,就像过去无线电话发展到民用阶段,经过大规模地采用后,手机芯片也实现了跨越式发展,“我们希望 YMIR 可以达到四两拨千斤的效果”。
通常而言,典型的 AI 模型开发可以概括为几个步骤:定义任务、准备数据、训练模型、评估模型和部署模型。在过去,这个流程需要开发者具备多项技能,如掌握常用的 AI 开发语言,了解机器学习和深度学习相关算法,等等。随着 YMIR 这类零门槛 AI 模型开发平台不断涌现,AI 模型开发将从“神坛”变得越来越“平民化”,真正进入千家万户。
在王孝宇博士看来,AI 模型开发在未来将呈现两个发展趋势:平台化与多融合。
“在未来,每一家企业都会从 AI 的角度去看如何提升生产力,即使不使用 AI 的能力,也必须要有 AI 的思维去设计整套研发流程,让整个流程更智能化、数字化。这也会使得越来越多的企业开始采用 AI 模型开发平台,并加入到这类平台的开发和完善中。”
此外,在未来,AI 技术也将走向多融合发展。
事实上早在去年,多融合 AI 技术就已得到了应用。2021 年年初,OpenAI 推出了两个结合计算机视觉和 NLP 结合的多模态模型:DALL-E 和 CLIP,前者可以基于文本生成图像,后者可以基于文本对图片进行分类。2022 年 4 月,OpenAI 发布升级版 DALL-E 2,除了能基于文本生成图像,还能二次创作。
“目前 AI 应用比较多,也比较成熟的领域包括自然语言处理、计算机视觉,但这几个方向在实际应用的交叉并不多。随着视觉算法越来越多,我们对视觉理解的维度越来越高;自然语言处理的模型越来越精确,我们对语音的识别越来越准确,必将会融合出新的技术和应用,并且现在已慢慢有这样的发展趋势。”王孝宇博士说道。
回看 AI 技术的整个发展历程,可以清晰地看到开源在其中起到的促进作用,毫无疑问,开源大大加速了 AI 技术的发展。也正因如此,越来越多的 AI 项目选择开源,形成正向反馈。
王孝宇博士表示,开源有几大益处:第一,避免“重复造轮子”,大幅节约开发者时间;第二,当大家采用同一套开源框架时,技术能够得到快速迭代。“通过开源可以把模型、项目经验等分享给更多的人,这对产业界的繁荣也起到了促进作用。”
而至于一个开源项目才能走得更远,王孝宇博士认为,首先,产品要真正有用,有用户需求,这个是核心。其次,要有持续的研发投入,就像模型迭代一样,开源项目也需要不断迭代,更好地适配业界需求。
点击下方图片即可阅读
你也「在看」吗?👇