数据标注、模型调参debug...通通自动化!华为云AI开发集大成之作ModelArts 2.0发布

2019 年 9 月 20 日 量子位
乾明 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

福音。AI开发门槛现在更低。

不用你编码,甚至无需AI开发经验。

如今你所需所做:只需标注一小部分数据,然后它就会帮你标注剩下数据,并且自动化完成模型训练,并且一键部署。

在整个过程中,它还能够实现自动调参,能够自动debug,并进一步提高模型的精度。

甚至到了模型落地阶段,如果开发者遇到难例,还能够自动帮开发者收集起来,用于进一步自动提升模型精度。

而福音集大成的“它”,就是华为云最新重磅发布的一站式AI开发管理平台ModelArts 2.0

压轴发布产品

在2019华为全联接大会的最后一天主题演讲现场,其作为压轴产品隆重出场。

与此同时,华为豪掷15亿美元打造开发者生态的细节也进一步公布(听说有羊毛可以薅,见文末)

和去年华为全联接大会上首次发布ModelArts相比,华为云这次发布的ModelArts 2.0有本质上的进化——对已有的AI开发模式进行了全流程的极简和专业升级。

同时,ModelArts 2.0还支持华为自研的世界最快AI集群——Atlas 900,训练速度业界第一。

华为云 EI服务产品部总经理贾永利介绍称,ModelArts 2.0以全流程的极简和自动化升级已有的AI开发模式,让数据准备、算法开发、模型训练、模型管理、模型推理全链条产生质的飞越。

不仅能够降低初学者的门槛,初学者群体和庞大的软件开发者群体都能快速地把AI用起来。

还能够大幅提升专业AI开发者的开发效率并帮助模型调优,让算法工程师、数据科学家们聚焦基础核心的算法研究与创新。

或许你会好奇,如此产品,实际效能到底如何?是否徒有其表?

我们不妨以AI开发者的身份按照AI开发的步骤展开实验~

数据处理:自动过滤、自动打标签、自动评估数据集

处理数据,是AI开发的第一步,也是AI开发过程中非常痛苦的一步。

不仅要筛选数据,还要给数据打标签,因此也催生了一个新的职业——数据“民工”。

耗时耗力,而且精度难以保证。

这一次对于ModelArts全新升级,华为云也瞄准了这一痛点,给出了相应的解决方案,即在原有的数据服务基础上推出了相应自动化服务。

首先,是对数据智能数据筛选,用AI的方式自动过滤和筛选出对训练模型无效的数据。

贾永利也在现场进行了揭秘,比如在视觉类场景中,失焦、过度曝光的图片往往不能参与标注;而且,从业务场景上看,有些不符合要求的也不能参与标注。

筛选效果如何?华为云深度学习架构师介绍称,其能够快速筛选出40%不可用的数据,而且误筛率极低。

与此同时,华为云ModelArts 2.0将业界传统的主动学习进行升级,首次提出混合智能标注技术,可以让标注效率获得至少5倍以上的提升。

据贾永利介绍,ModelArts 2.0也能够基于样本质量特征、图像全局属性、标注特征等约20种特性的自动特征提取能力,帮开发者识别数据间的深层关系,指导开发者对数据进行优化。

最直接的一个应用就是它能够对不同批次的训练数据进行整体统筹,也能够对数据训练集、测试集的数据特征分布进行自动诊断,从而提高模型精度。

模型训练:自动学习,自动“炼丹”

不仅仅只是解放“数据民工”,这次ModelArts的升级中,对于“开发老手”也可以说是一个福音。

华为云直接将自动数据增强、超参自动搜索、神经网络架构搜索等技术进行融合,推出了一个多元搜索技术,不用你人工操作,全都交给AI来做。

贾永利说,这是业内独创的技术,精度表现上也远超业界水平。

在大会现场,华为云专家为在场来宾展示了一个构建细胞发育时期分类模型的例子:

通过多元搜索技术构建的单细胞基因图谱表达分类模型精度,相对于通过传统自动学习方法构建的模型,精度提升5.4个百分点,同时模型训练速度快了5倍。

在展区内,专家们还分享了另外一个例子:ImageNet数据集通过自动搜索,达到76.7%精度只需要600小时,而Google MobileNetV3需要40000个小时。

不过,这一模型在训练过程中并不仅仅只面对AI初级开发者,在面对更加专业的开发者时,ModelArts 2.0也会提供整个模型训练过程的“白盒子”,让他们能够更有针对性的对模型参数进行调整。

针对更加专注于数据建模和问题解决的资深算法工程师和数据科学家,华为AI计算框架MindSpore提供自动化的并行能力,只需简单几行描述就可以让算法跑到几十乃至上千AI运算节点上。

而且也能提供强大的自动微分能力,从源码级别帮助实现微分算子的自动开发,极大释放专家们的创造力。

贾永利也讲述了这背后能量:只需简单几行描述就可以让算法跑到几十乃至上千AI运算节点上。

以上是MindSpore 2.0自动并行的代码,仅需设置auto_parallel这一项参数即可将单卡模型自动并行到多机多卡上,华为云也在现场进行了演示。

同时,ModelArts 2.0内置的MindSpore计算引擎也能够提供强大的自动微分能力,从源码级别帮助实现微分算子的自动开发,最大程度释放专家们的创造力。

以上是MindSpore自动微分的代码,仅需调用tensor engine的differentiate API即可自动得到反向算子的实现。

此外,华为云也开放了ModelArts SDK,支持被集成到各类第三方开发环境(例如PyCharm),从而为企业级应用打通开发流水线,支持线上线下协同的开发环境。

模型管理:自动debug调优,自动转换压缩

截止到这个阶段,开发者基本上就已经能够拥有训练良好的模型出来了。

但对于AI开发终点的路程,才行至中途。

接下来开发者需要对不同版本的模型进行管理与优化,然后针对不同的平台对模型进行转换。

这两个方面,华为云都有进行针对性升级。

首先在模型调优方面,对于算法开发人员来说,对模型性能的评估以及调优是一项重要且难度极高的工作。

现在,ModelArts 2.0能够自动帮助开发者debug调优。

具体来说,华为云提供了丰富的模型评估、可视化以及诊断能力。而且,评估并不仅仅只是针对模型展开的,而是从数据到模型训练的整体过程进行评估。

评估之后,ModelArts 2.0也能够基于评估结果给AI开发者提供模型诊断建议,来帮助开发者持续调优、增强模型。

模型最后完善阶段,便是部署了。

但在部署前,还需要针对不同的平台对训练优良的模型进行转换。

在这方面,华为云也进行了提升。同时专家介绍到,ModelArts 2.0能够在不损失模型精度的情况下,对模型进一步压缩,从而提升模型在端侧和边缘侧部署的能力。

模型部署:自动难例发现,在线学习

最后,模型部署阶段,也是通常意义上AI开发进入的最后一个阶段。

但饱受AI开发折磨的开发者们都知道,这才是最具备压力的阶段。

因为AI模型要落地,是需要直接提供给用户使用的,换句话说,整个模型接收到的输入将会呈现各种各样的状态。

目前的AI,基本上都是基于数据集的AI。

那么,数据集之外的数据,模型能否hold住?能否保持在训练集和测试集上的精度?都是亟待解决的问题。

在这方面,除了云端实时服务和批量服务、端边云协同之外,华为云ModelArts 2.0也提供了自动难例发现功能。

直接打通了运行态和开发态,让数据和模型能在线持续学习和进化。

具体来讲,如果模型在实际推理的过程中,遇到了新的、且很难识别的数据,ModelArts 2.0就会收集起来,之后再根据开发者需求,基于这些数据进行在线学习,提升模型的鲁棒性。

目前,这一功能已经率先在华为云自动驾驶云服务Octopus上试运行。

此外,如果开发者模型训练完毕但并不需要部署,也可以通过ModelArts的AI市场进行模型和API交易。这次的升级中,华为云在这方面也有新的升级,新增了预置模型二次调优的功能。

最后总结下华为云ModelArts 2.0的功能全景图:

有羊毛可薅!豪掷15亿美元

如此工具,华为云没有藏着掖着。基于ModelArts,华为云在2019华为全联接大会期间举办了华为云人工智能大赛·垃圾分类挑战杯、华为云人工智能大赛·无人车挑战杯等赛事的决赛。

在大会现场,贾永利还展示了与上海交通大学联合举办的无人车挑战赛场景,开发者通过云侧进行开发与训练,训练好的模型部署到车上的Atlas 200系列的HiLens Kit,实现车辆的自动行驶。

同时,华为正式对外公布了沃土计划2.0的细节。

这一计划的目标,是在未来5年投入15亿美元构建开发者生态。具体扶持资源包括:

鲲鹏开发样机、昇腾训练卡、云服务代金券,OpenLab,培训与认证服务,开发者大赛,ISV应用迁移技术支持,华为FAE开发支持服务,华为认证,ISV营销活动与样板点支持等。

此外,华为也将围绕开发者学习、产品构建、产品上市三个阶段,分别设立LGF(学习成长基金)/PDF(产品开发基金)/MDF(市场发展基金)三类基金。

具体到ModelArts 2.0上,不仅有羊毛可以薅——新用户注册,可以免费体验40个小时,华为云也推出了ModelArts-Lab AI实战营系列活动,来帮助开发者掌握人工智能实战技能,覆盖领域包括图像分割、姿态识别、活体识别、NLP等等。

如果你有兴趣,不妨点击“阅读原文”试一试~

榜单征集!三大奖项,锁定AI Top玩家

2019中国人工智能年度评选 启幕,领航企业、商业突破人物、最具创新力产品3大奖项,欢迎优秀的AI公司报名参与!

AI社群 | 与优秀的人交流

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 ! 


登录查看更多
0

相关内容

【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
266+阅读 · 2020年6月10日
华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
125+阅读 · 2020年5月22日
TensorFlow Lite指南实战《TensorFlow Lite A primer》,附48页PPT
专知会员服务
69+阅读 · 2020年1月17日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
303+阅读 · 2019年12月23日
【白皮书】“物联网+区块链”应用与发展白皮书-2019
专知会员服务
93+阅读 · 2019年11月13日
百度研究院|2020年10大人工智能科技趋势
专知
7+阅读 · 2019年12月24日
深度解读华为云AI开发平台ModelArts技术架构
AI前线
8+阅读 · 2019年5月18日
阿里云发布机器学习平台PAI v3.0
雷锋网
12+阅读 · 2019年3月22日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
TF Boys必看!一文搞懂TensorFlow 2.0新架构!
引力空间站
18+阅读 · 2019年1月16日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
3+阅读 · 2018年4月9日
VIP会员
Top
微信扫码咨询专知VIP会员