一行代码提升迁移性能 | CVPR 2020

2020 年 5 月 5 日 AI科技评论
作者 | 崔书豪
编辑 | 丛 末




本文首发于知乎

只需要一行代码,立刻提升迁移性能。

这就是我们出的新方法:批量核范数最大化(Batch Nuclear-norm Maximization)。

论文原址:https://arxiv.org/pdf/2003.12237.pdf

开源地址:https://github.com/cuishuhao/BNM
在发表在CVPR 2020 上的文章《Towards Discriminability and Diversity: Batch Nuclear-norm Maximization under Label Insufficient Situations》中, 我们通过理论推导和分析,发现类别预测的判别性与多样性同时指向批量响应矩阵的核范数,这样就可以最大化批量核范数来提高迁移问题中目标域的性能。
在迁移任务中,目标域由于没有标签,常常导致分界面附近混淆较多的数据。而我们基于这一现象,分析了批量类别响应组成的批量矩阵A,并希望从判别性和迁移性进行优化。
  • 判别性
所谓判别性,指的是预测类别的过程是否坚定。比如对于二类问题的响应
  1. [0.9,0.1]判别性较高,
  2. [0.6,0.4]判别性较低。
常见的方法采用最小化熵来得到较高的判别性。我们发现矩阵A的F范数与熵有着相反的单调性,从而可以通过最大化A的F范数来提升判别性。
  • 多样性
多样性可以近似表达为批量矩阵中预测的类别数量,即预测的类别数量多则响应多样性大。
考虑不同类别响应的线性相关性,如果两个响应属于不同类别,那么响应会差别较大线性无关,如果属于相同类别则近似线性相关。
  1. [0.9,0.1]与[0.1,0.9]线性无关,
  2. [0.9,0.1]与[0.8,0.2]近似线性相关。
那么预测类别数也就是矩阵中最大的线性无关向量数,即矩阵的秩。
  • BNM
核范数是矩阵奇异值的和,在数学上有两点结论
  1. 核范数与F范数相互限制界限,
  2. 核范数是矩阵秩的凸近似。
所以类别预测的判别性与多样性同时指向矩阵的核范数,我们可以最大化矩阵核范数(BNM)来提升预测的性能。
比如上图中,如果使用熵最小化(EntMin)和BNM来优化,当熵相同的时候,使用BNM优化更容易使得核范数更大,从而正确预测绵羊的样本(保障类别比重较少的数据有利于提高整体的多样性)。

实现
在常用的框架Pytorch与Tensorflow中,均可通过一行代码实现BNM
Pytorch:
L_BNM = - torch.norm(A,'nuc')
Tensorflow:
L_BNM = -tf.reduce_sum(tf.svd(A, compute_uv = False))

应用
我们将BNM应用到三个标签不足的场景中,半监督学习,领域适应和开放域物体识别。实验表明,在半监督学习中可以提升现有方法,在领域适应中BNM约束明显优于EntMin,并且单一的BNM约束可以达到与现有方法相近的性能,如下图:
在开放域物体识别中单一的BNM约束超过有着冗杂损失函数的UODTN,达到SOTA性能,如下图:


同时在开放域物体识别中,我们统计了随机采样的批量响应中未知类所占比例,如图:
我们发现BNM确实可以保持未知类所占比例,从而保障整体预测的类别数量与准确性,从而保持多样性。
值得一提的是,我们的方法主要针对的是缺少标签场景下分界面附近数据密度较大的问题,对于迁移相关的任务有着较为普遍的改善价值。


点击“阅读原文” 查看往期直播回放视频


登录查看更多
2

相关内容

【ICML 2020 】小样本学习即领域迁移
专知会员服务
77+阅读 · 2020年6月26日
【CVPR2020-北京大学】自适应间隔损失的提升小样本学习
专知会员服务
83+阅读 · 2020年6月9日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
GitHub超9千星:一个API调用27个NLP预训练模型
新智元
17+阅读 · 2019年7月22日
预训练模型迁移学习
极市平台
11+阅读 · 2018年11月6日
基于Keras进行迁移学习
论智
12+阅读 · 2018年5月6日
Fast R-CNN
数据挖掘入门与实战
3+阅读 · 2018年4月20日
论文笔记之attention mechanism专题1:SA-Net(CVPR 2018)
统计学习与视觉计算组
16+阅读 · 2018年4月5日
迁移学习在深度学习中的应用
专知
23+阅读 · 2017年12月24日
Arxiv
7+阅读 · 2020年3月1日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Arxiv
3+阅读 · 2018年5月20日
Arxiv
8+阅读 · 2018年4月12日
VIP会员
相关VIP内容
相关资讯
GitHub超9千星:一个API调用27个NLP预训练模型
新智元
17+阅读 · 2019年7月22日
预训练模型迁移学习
极市平台
11+阅读 · 2018年11月6日
基于Keras进行迁移学习
论智
12+阅读 · 2018年5月6日
Fast R-CNN
数据挖掘入门与实战
3+阅读 · 2018年4月20日
论文笔记之attention mechanism专题1:SA-Net(CVPR 2018)
统计学习与视觉计算组
16+阅读 · 2018年4月5日
迁移学习在深度学习中的应用
专知
23+阅读 · 2017年12月24日
Top
微信扫码咨询专知VIP会员