VALSE 论文速览第20期：GAIA：一个目标检测下游迁移框架

2021 年 10 月 26 日 VALSE

为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展，VALSE最新推出了《论文速览》栏目，将在每周二和周五各发布一篇顶会顶刊论文的录制视频，对单个前沿工作进行细致讲解。本期VALSE论文速览选取了来自中科院自动化所的工作。该工作由张兆翔教授指导，彭君然和卜兴源同学完成，将为大家呈现视觉目标检测领域前沿的定制化迁移系统。

论文题目：GAIA：一个目标检测下游迁移框架

作者列表：卜兴源 (中科院自动化所)，彭君然 (中科院自动化所)，闫俊杰 (中科院自动化所)，谭铁牛 (中科院自动化所)，张兆翔 (中科院自动化所)

B站观看网址：

https://www.bilibili.com/video/BV1Eq4y1R71i/

复制链接到浏览器打开或点击阅读原文即可跳转至观看页面。

论文摘要：

近期，在计算机和自然语言处理等领域，使用大规模数据和大模型预训练随后在下游微调的策略已经成为迁移学习最有效最可靠的新范式。尽管这种模式展现出了极其优秀的效果，然而这种策略带来了相当的笨重性，即给下游的定制化带来了难度和成本问题。举例而言，当用户需要在不同的设备上运行指定大小的模型，大模型无法满足需求，而定制化模型在大数据上重训练将引入巨大的成本。基于这一点，我们设计了一套大数据大模型迁移学习的新范式，作为大模型大数据预训练和下游定制化的桥梁，既完成了大数据赋能的模型定制化，又极大地节约了成本。与过去大数据上训练单一的大模型不同，我们选择在大数据下训练一个超网 (也可理解为模型族)，然后根据用户的要求和下游domain特点进行模型定制化的结构和权重抽取。与以往在COCO数据集上评测不同，我们收集了KITTI, VOC, WiderFace, DOTA, Clipart, Comic等十个下游数据进行评测，涵盖医疗，航拍，漫画等各种场景，真正证明了我们方案的可靠性和泛化性。我们的方案在以上十个下游数据集上进行高效全自动的模型抽取和适配，做到比baseline的mAP提升多达9.8。模型和代码已开源，欢迎大家使用：https://github.com/GAIA-vision/GAIA-det.

论文信息：

[1] Bu, X.*, Peng, J. *, Yan, J., Tan, T. and Zhang, Z., 2021. GAIA: A Transfer Learning System of Object Detection That Fits Your Needs. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR2021).

视频讲者简介：

彭君然，本科毕业于清华大学，博士毕业于中科院自动化所，目前就职于华为云。目前的研究兴趣为目标检测，AutoML，大规模机器学习系统，在ICCV，NeurIPS，CVPR等顶级会议发表5篇文章。