联合北京智源人工智能研究院、开放数据集和开放创新平台、举办 DIW 2019 挑战赛,旷视迈出了帮助整个AI行业发展的第一步。
在人工智能领域,学界向工业界贡献人才屡见不鲜,而工业界反哺学界依然欠缺系统运作。旷视与北京智源人工智能研究院的合作,有望成为一个标杆案例。
4 月 16 日,智源学者计划启动暨联合实验室发布会召开。发布会上,旷视与北京智源人工智能研究院联合公布了 “智源学者计划”,同时宣布成立 “北京智源-旷视智能模型设计与图像感知联合实验室”。
2018 年 11 月,北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,以下简称 BAAI)在科技部和北京市委市政府的指导和支持下,由北京市科委和海淀区政府推动成立。
BAAI 将依托北京大学、清华大学、中国科学院、旷视等人工智能领域优势单位,合作建设的新型研发机构。
科技经费 “包干制”
BAAI 的 “新”,首先体现在智源学者计划上。
BAAI 院长、北京大学计算机系主任黄铁军介绍道:“智源学者计划的目标,就是要找到最好的人,给他自由支配的经费,提供他需要的资源,支持开展人工智能领域特定方向上的重大基础问题研究,或者开展前沿问题的自由探索。”
言下之意,“自由” 是该计划的最大特点。据悉,智源学者计划会给予入选科学家充分的尊重和信任,将技术路线决策权和人财物支配权全部交于科学家,试点科技经费的” 包干制 “。
旷视首席科学家、旷视研究院院长孙剑评价道:“智源学者计划是制度上的创新。”
据悉,智源学者计划重点支持四类人才,分别是智源首席科学家、智源研究项目经理、智源研究员和智源青年科学家。
其中,智源首席科学家为领域内顶尖专家学者,负责研究方向的整体规划布局。
智源研究项目经理要求兼备技术和管理才能,主要承担项目管理和多方沟通工作。
智源研究员由智源首席科学家推荐,负责对项目实施管理,以及开展科研活动。
智源青年科学家则是四类人才之中最年轻且具备发展潜力的学术英才,要求候选人在 38 岁以下,从事人工智能领域的科研工作,能够根据个人擅长领域或研究兴趣方向进行开放性、探索性研究。
目前,经过提名、初评、审议等流程,已经遴选出首批智源学者共 21 人。
中国科学院院士、北京大学数学科学学院张平文教授,将担任首批智源学者 “人工智能数理基础” 重大研究方向首席科学家。北京大学夏壁灿教授,将担任智能研究项目经理。
除此之外,还有 10 名智源研究员候选人,和 9 名智源青年科学家候选人。青年科学家候选人里,“人工智能数理基础” 方向有 5 人,“机器学习” 方向有 4 人,分布来自北大、清华、北京应用物理与计算数学研究所和旷视。
值得一提的是,候选青年科学家、旷视研究院研发总监张祥雨博士仅 28 岁,是首批智源学者候选人中年龄最小的。
黄铁军表示,今年将计划遴选智源学者 100 人,其中青年科学家 30–50 人。2020 年和 2021 年再分别增加 100 人,智源学者总体规模保持在 300 人左右。
开源数据和场景
BAAI 的 “新”,还体现在联合实验室上。
BAAI 副院长唐杰表示:“研究院希望跟人工智能优势单位成立联合机构,联合实验室是其中一个重要组成部分。在联合实验室框架下,我们希望跟优势的企业和院所一起组织数据共享、支持数据开源、推动场景开放,实施协同创新。”
在联合实验室的建设上,BAAI 遵循 “成熟一个、启动一个” 的原则,择优支持共建,最多可连续支持三年。
唐杰强调,“北京智源 - 旷视智能模型设计与图像感知联合实验室” 已通过立项论证,也是智源联合实验室首个成功落地的项目。
该联合实验室拟由旷视研究院院长孙剑担任实验室主任,旷视资深研究员周舒畅任实验室副主任。
在实验室揭牌现场,孙剑一针见血指出了当前人工智能行业创新所面临的问题:“目前有大量的高校、研究院所、创新创业人员和行业客户,想参与到人工智能创新中,但苦于没有数据,算力或算法等资源,无法施展。”
针对这些问题,联合实验室将基于旷视在计算机视觉技术和应用的积累,通过 3 年时间,建设一体化的数据共享、模型设计与场景测试的开放创新平台。
数据方面,实验室将立足旷视算法落地场景丰富、数据积累深厚的优势,以开源数据集、预抽取特征等形式,持续开放通用物体分类、物体检测追踪、人像人形识别属性等视觉问题数据。
在发布会上,旷视和 BAAI 联合推出了全球最大的物体检测数据集 ——Objects365。孙剑介绍道:“Objects365 定义了生活中常见的 365 个类别,第一批将开放 63 万张图像,1000 万的标注框。开放图片数是 COCO 的 5 倍,标注框超过 COCO 的 11 倍。”微软发布的 COCO 是业内流行的目标检测数据集,专为对象检测、分割、人体关键点检测、语义分割和字幕生成而设计。
模型设计优化方面,平台将提供自动化模型搜索、错误分析与可视化工具,加速大模型架构探索和优化,降低面向应用的模型设计门槛,来解决传统模型架构人工设计方法的经验性强,迭代周期长的问题。
同时,实验室还将积极探索低位宽神经网络相关技术,研究实现对于大计算量模型的云上和终端两级的硬件支持,完成从模型搜索到实际应用的垂直整合。
场景验证方面,实验室将通过建设人脸抓拍识别、结构化检测、大规模人像比对等验证场景和提供自动分析报告服务,为研究算法调优提供环境,并积极探索低位宽等网络压缩技术,研发高效硬件部署方案,推动模型研究成果迅速投入实用。
针对计算机视觉算法与真实场景适配的问题,实验室还将建设可重现的实景测试环境,并提供自动化的量化错误分析报告,帮助算法迭代。
通过以上措施,实验室将被打造成为一个开放、贴近实际场景的计算机视觉算法研究实验平台,形成涵盖数据、平台、场景的完整闭环。
孙剑介绍道:“实验室平台建成后,将面向高校院所、创业企业等创新创业主体开放。”
攻克目标检测
发布会当天,Detection In the Wild 2019(DIW 2019)挑战赛也正式启动。
DIW 2019 由旷视和 BAAI 联合举办,目的是推动目标检测技术的发展,改善现有目标检测数据集的类别覆盖不全、标注精度不高、密集场景缺少等问题。
据孙剑介绍,该挑战赛已成功申请为 2019 CVPR Workshop。CVPR 全称计算机视觉与模式识别会议,是计算机视觉三大国际会议之一。
挑战赛将于 5 月 10 日开放测试集,6 月 10 日暂停提交测试集,6 月 17 日公布比赛结果。
主办方为每个赛道的冠军队伍准备了 10000 美元的奖励。届时,优胜队将在 CVPR 现场的研讨会上介绍经验,共同探讨检测问题的瓶颈及优化方向。
挑战赛基于旷视最新发布的最大通用物体检测数据集 Objects365 以及之前发布的大规模拥挤场景数据集 CrowdHuman,分为三个赛道:Objects365 赛道、Objects365 小赛道和 CrowdHuman 赛道。
Objects365 赛道意在探索目标检测系统的瓶颈。选手将利用公开的训练集对检测模型进行训练,训练集包括 365 种类别、60 万张图片和超过 1000 万个框。
并且,选手还需要在 3 万张图片构成的验证集上调试算法,以及在 10 万张图片构成的测试集上进行最终的挑战。
为了降低参赛门槛,加快算法迭代速度,研究长尾类别检测问题,Objects365 小赛道则从 Objects365 数据集中挑选出 65 个类别,选手可以用 1 万张图片进行模型的训练。
CrowdHuman 赛道则是为了解决现实生活中的遮挡问题,推动人体检测算法落地。选手将基于专门为密集场景人体检测设计的 CrowdHuman 数据集进行训练,数据集包含有丰富标注信息和多种场景。
为什么是旷视?
从联合设立实验室到举办挑战赛,BAAI 之所以选择和旷视深度合作,是看重其在人工智能领域的长期积累。
目前,旷视拥有国内外在申及授权专利 1000 余件,代表行业领先技术提供方参与了 19 项人工智能国家及行业标准制定。
在各项国际人工智能顶级竞赛中,旷视揽获 25 项世界技术评测第一。2018 年 12 月,旷视获批全国博士后科研工作站一级站点。
人工智能的三大基础是数据、算法模型和算力。旷视在这三方面都取得了一定的成绩。
数据集建设和共享上,旷视研究院建设了数百人的数据管理、开发团队。目前,旷视已经开放了两个数据集:密集场景人体检测数据集 CrowdHuman,以及通用物体检测数据集 Objects365。
高精度模型研发方面,旷视研究院提出 ShuffleNet、DorefaNet 系列模型,覆盖轻量级低功耗设备和高性能、高任务难度的复杂模型设计,比如旷视研究院在 COCO 2018 上凭借 ShuffleNet V2 高精度版本一举拿下 4 项冠军。
同时,旷视研究院第三代 AutoML 系统在分类、检测等多个任务上均超过人类模型设计水平,成功落地于人脸识别、物体分割等实际业务。
计算力平台方面,旷视研究院开发原创深度学习云平台 Brain++ Platform,它能完成数据存储、标注、深度学习训练、GPU 虚拟化管理和模型发布的大规模分布式系统。目前,Brain++ Platform 平台拥有数千 GPU 级计算资源,提供数十 PB 级存储空间。
此外,旷视还拥有一个完全自研的人工智能框架 Brain++,“内部版本已经升到了 7.0”。
孙剑在发布会上分享道:“我们一直在想,到底做什么才能帮助整个人工智能行业的发展。” 联合 BAAI、开放数据集和开放创新平台、举办 DIW 2019 挑战赛,旷视已经迈出了第一步。
题图来自 Windows Central