成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
2
ICML 2020 | 小样本学习首次引入领域迁移技术,屡获新SOTA结果!
2020 年 6 月 21 日
AI科技评论
本文介绍的是ICML2020论文《Few-Shot Learning as Domain Adaptation: Algorithm and Analysis》,论文作者来自中国人民大学卢志武老师组。
作者 | 管界超
编辑 | 丛 末
论文地址:
https://arxiv.org/pdf/2002.02050.pdf
代码地址:
https://github.com/JiechaoGuan/FSL-DAPNA
1
前言
为了利用少量标注样本实现对未见类图片的识别,小样本学习希望从可见类图片中学习先验知识。小样本学习的难点是未见类别的数据分布与可见类别的不同,从而导致在可见类上训练好的模型无法较好地迁移到未见类别领域。这种由于类别不同导致的数据分布差异可以看作是一种特殊的领域迁移问题。
在这篇论文中,我们提出了一种基于注意力机制的领域迁移原型网络 (DAPNA),去解决在元学习框架下的领域迁移问题。具体来说是在训练过程中,我们将可见类的一个纪元 (episode,训练单位)分拆成两个类别完全不重合的子纪元(sub-episode),用以模拟从可见类到未见类的领域迁移。在假定所有纪元都采样于同一个分布的情况下,我们在理论上给出了该模型的期望损失上界,我们也根据该期望损失上界进行损失函数的设计与模型的优化。诸多实验表明,我们所提出的DAPNA模型能比已有小样本学习模型取得更好的效果。
2
介绍
小样本学习(Few-ShotLearning)可以看作是从可见类图片到未见类图片的迁移学习。每一个可见类包含大量训练样本,而每一未见类仅仅包含极少量的标注样本。
未见类提供的训练样本稀少,以及可见类与未见类之间的数据分布不同,是小样本学习面临的主要问题。
针对未见类样本少这一特点,我们一般采用元学习方法(meta learning)来解决。即在训练过程中,在可见类上构造出多个训练任务(task/episode),用以模拟未见类上可能出现的新任务的环境。通过在可见类上多个任务当中的训练,元学习方法希望训练得到的模型能够快速迁移到未见类上新的任务去。但小样本学习中可见类与不可见类之间数据分布不同这一问题,目前还没有模型进行有效解决。
我们所提出的模型旨在元学习训练过程中,在每一个可见类任务中模拟领域迁移的过程,以增强模型跨领域的能力,解决小样本学习中的领域迁移问题。具体来说,我们将可见类的一个纪元 (episode)分拆成两个类别完全不重合的子纪元(sub-episode),一个子纪元作为源领域(source domain),另一个子纪元作为目标领域(target domain),用两个子纪元之间的领域迁移来模拟从可见类到未见类的领域迁移。我们采用领域迁移研究中的间隔差异(Margin Discrepancy Disparity, MDD)指标来度量两个子纪元之间的领域差异(domain gap),并希望通过减小两个子纪元之间的间隔差异(MDD)来增强模型的跨领域能力。
需要强调的是,为了与之前的小样本学习方法进行公平比较,我们在训练过程当中没有用到任何未见类的数据,仅仅是用可见类的数据进行领域迁移的模拟和模型的训练。
这篇论文的贡献主要有三点:
(1)首次将领域迁移技术引入到小样本学习中,用以增强小样本学习模型的跨领域能力。
(2)在假定所有任务采自同一分布时,我们推导出了小样本学习模型的泛化误差上界,为小样本学习提供了理论保证。
(3)我们所提出的DAPNA模型在小样本学习领域的诸多标准数据集上取得了新的state-of-the-art 效果。
3
模型方法
我们的模型主要由两大子模块构成:小样本学习模块和领域迁移模块。流程图中的AutoEncoder是两个简单的线性层,为了让图片特征的领域归属更模糊,在这里不做详细介绍。
1、小样本学习模块
(1)基本模型为原型网络(ProtoNet)。我们选择了最具有代表性的小样本学习模型原型网络作为我们的基础网络。在训练过程中,每一个任务包含支持集(support set)与查询集(query set)。原型网络用支持集中的给定样本计算每一个可见类的类中心(prototype),再计算出查询集中每个可见类样本到每个类中心的距离,将距离转换为分数后计算损失函数进行误差反传。
(2)引入注意力机制增强图片特征的表达能力。此外,我们还引入了注意力机制,在每个给定训练任务中,将所有图片特征输入到注意力机制网络中得到新的图片特征(用以作为原型网络的输入),从而增强图片特征在该任务中的表达能力和适应性。
(3)在两个子纪元中同样应用原型网络方法进行学习。计算损失函数并反传。
2、领域迁移模块
我们用间隔差异(MDD)来衡量两个子纪元之间的领域差,并通过减小两个子纪元之间的领域差来增强模型的跨领域能力。间隔差异定义如下:
最终的领域迁移损失函数由间隔损失函数(Margin loss)和间隔差异(MDD)构成:
领域迁移的损失函数形式是由以下领域迁移定理给出的:
我们最终的Domain Adaptation ProtoNet with Attention (DAPNA)模型的损失函数如下:
我们还给出了关于小样本学习的泛化误差和本文模型DAPNA的泛化误差。并且注意到,当我们将上式总损失函数中的超参数
与
都设置为1的时候,总损失函数就是我们所提算法的泛化误差上界。由此,我们为DAPNA算法建立了理论分析。
4
实验
(1)传统小样本学习实验。
我们在小样本学习的3个公开数据集上(miniImageNet,tieredImageNet, CUB)进行了传统小样本学习实验(特征提取网络是WRN,有预训练)。并在跨领域小样本学习数据集(miniImageNet->CUB)进行了跨域小样本学习实验(特征提取网络是ResNet18,无预训练)。
实验结果表明我们提出的算法能够取得新的SOTA结果,而且在跨领域小样本学习实验中这种优势更为明显,显示出我们的
算法模型的确具有较强的跨领域能力。
(2)消融实验和对 DAPNA效果好的进一步解释。
我们还做了消融实验去验证我们模型每一部分的有效性。
此外,在测试过程中,我们不仅仅计算了未见类数据每个任务的小样本学习识别正确率,也把未见类中的每个任务(纪元)拆分成两个子纪元,一个当作源领域,另一个当作目标领域,用以计算这两个子纪元之间的间隔差异(MDD),以揭示小样本学习中分类正确率与领域差异之间的关系。
我们可以看到,(1)间隔差异(MDD)越小,模型识别准确率越高。(2)即使我们在训练过程当中没有使用任何未见类的数据、仅仅用了可见类的数据进行模型训练和领域迁移模拟,训练得到的模型仍然能在未见类数据上实现领域间隔(MDD)的减小,并且MDD的减小能比对照组下降地更快、更低,对应的小样本识别准确率也比对照组更高。这证明了将领域迁移技术引入到元学习框架中、用以提高小样本学习能力策略的有效性。
5
总结
本文第一次将领域迁移技术引入到小样本学习当中,用以减少小样本学习中可见类与不可见类之间真实存在的领域间隔,以此来提高模型的跨领域能力。在假定所有训练任务都采样于同一分布的情况下,我们给出了小样本学习算法模型的泛化误差上界,同时我们也根据该误差上界进行模型的优化。在传统小样本学习和跨领域小样本学习实验中,我们的模型都取得了新的好结果,从实践层面验证了我们算法的有效性。
ACL 2020原定于2020年7月5日至10日在美国华盛顿西雅图举行,因新冠肺炎疫情改为线上会议。为促进学术交流,方便国内师生提早了解自然语言处理(NLP)前沿研究,AI 科技评论将推出「ACL 实验室系列论文解读」内容,同时欢迎更多实验室参与分享,敬请期待!
点击"阅读原文",直达“ACL 交流小组”了解更多会议信息。
登录查看更多
点赞并收藏
2
暂时没有读者
19
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
领域迁移
关注
7
注意力图神经网络的小样本学习
专知会员服务
191+阅读 · 2020年7月16日
克服小样本学习中灾难性遗忘方法研究
专知会员服务
50+阅读 · 2020年7月16日
【ICML 2020 】小样本学习即领域迁移
专知会员服务
77+阅读 · 2020年6月26日
【CVPR2020-北京大学】自适应间隔损失的提升小样本学习
专知会员服务
83+阅读 · 2020年6月9日
1750亿参数!GPT-3来了!31位作者,OpenAI发布小样本学习器语言模型
专知会员服务
72+阅读 · 2020年5月30日
最新必读的8篇「小样本学习(few-shot learning)」2020顶会论文和代码
专知会员服务
238+阅读 · 2020年3月2日
元迁移学习的小样本学习,Meta-transfer Learning for Few-shot Learning
专知会员服务
158+阅读 · 2020年2月29日
【元学习 | 论文】图元学习少样本节点分类,电子科大,CIKM19
专知会员服务
82+阅读 · 2019年11月21日
【元学习 | 论文】NeuralPS19,多模态模型无关元学习,南加州大学
专知会员服务
61+阅读 · 2019年11月21日
【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources,最小资源增强的元学习跨语言命名实体识别
专知会员服务
30+阅读 · 2019年11月17日
最新必读的8篇「小样本学习(few-shot learning)」2020顶会论文和代码
THU数据派
54+阅读 · 2020年3月2日
NeurIPS提前看 | 四篇论文,一窥元学习的最新研究进展
机器之心
12+阅读 · 2019年12月9日
论文浅尝 | 多标签分类中的元学习
开放知识图谱
6+阅读 · 2019年9月25日
ICCV2019|基于全局类别表征的小样本学习
极市平台
11+阅读 · 2019年9月21日
从 CVPR 2019 一览小样本学习研究进展
AI科技评论
11+阅读 · 2019年7月25日
近期必读的7篇ICML 2019【Meta-Learning(元学习)】相关论文和代码
专知
51+阅读 · 2019年6月4日
【ICML2019】中科院自动化所-针对小样本问题的学习生成匹配网络方法
专知
59+阅读 · 2019年5月27日
基于小样本学习的意图识别冷启动
PaperWeekly
10+阅读 · 2019年5月12日
小样本学习(Few-shot Learning)综述
PaperWeekly
120+阅读 · 2019年4月1日
论文浅尝 | 用图网络做小样本学习
开放知识图谱
66+阅读 · 2018年6月30日
Few-shot Natural Language Generation for Task-Oriented Dialog
Arxiv
30+阅读 · 2020年2月27日
Continual Unsupervised Representation Learning
Arxiv
7+阅读 · 2019年10月31日
Meta-Learning with Dynamic-Memory-Based Prototypical Network for Few-Shot Event Detection
Arxiv
20+阅读 · 2019年10月25日
SCEF: A Support-Confidence-aware Embedding Framework for Knowledge Graph Refinement
Arxiv
7+阅读 · 2019年2月18日
Knowledge Representation Learning: A Quantitative Review
Arxiv
28+阅读 · 2018年12月28日
Dialogue Natural Language Inference
Arxiv
6+阅读 · 2018年11月1日
Commonsense for Generative Multi-Hop Question Answering Tasks
Arxiv
4+阅读 · 2018年9月17日
Dependent Gated Reading for Cloze-Style Question Answering
Arxiv
4+阅读 · 2018年6月1日
R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering
Arxiv
7+阅读 · 2018年5月24日
Multi-Level Factorisation Net for Person Re-Identification
Arxiv
4+阅读 · 2018年4月17日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
领域迁移
小样本学习
样本
数据分布
ICML 2020
期望损失
相关VIP内容
注意力图神经网络的小样本学习
专知会员服务
191+阅读 · 2020年7月16日
克服小样本学习中灾难性遗忘方法研究
专知会员服务
50+阅读 · 2020年7月16日
【ICML 2020 】小样本学习即领域迁移
专知会员服务
77+阅读 · 2020年6月26日
【CVPR2020-北京大学】自适应间隔损失的提升小样本学习
专知会员服务
83+阅读 · 2020年6月9日
1750亿参数!GPT-3来了!31位作者,OpenAI发布小样本学习器语言模型
专知会员服务
72+阅读 · 2020年5月30日
最新必读的8篇「小样本学习(few-shot learning)」2020顶会论文和代码
专知会员服务
238+阅读 · 2020年3月2日
元迁移学习的小样本学习,Meta-transfer Learning for Few-shot Learning
专知会员服务
158+阅读 · 2020年2月29日
【元学习 | 论文】图元学习少样本节点分类,电子科大,CIKM19
专知会员服务
82+阅读 · 2019年11月21日
【元学习 | 论文】NeuralPS19,多模态模型无关元学习,南加州大学
专知会员服务
61+阅读 · 2019年11月21日
【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources,最小资源增强的元学习跨语言命名实体识别
专知会员服务
30+阅读 · 2019年11月17日
热门VIP内容
开通专知VIP会员 享更多权益服务
军用数据链:武器装备神经,联合作战基石,31页pdf
【ETHZ博士论文】超越像素深度:通过深度学习增强超分辨率技术,198页pdf
2018∼2023年国家自然科学基金人工智能学科人才项目申请及资助综述
【NeurIPS2024】《AmoebaLLM:构建任意形状的大型语言模型以实现高效和即时部署》
相关资讯
最新必读的8篇「小样本学习(few-shot learning)」2020顶会论文和代码
THU数据派
54+阅读 · 2020年3月2日
NeurIPS提前看 | 四篇论文,一窥元学习的最新研究进展
机器之心
12+阅读 · 2019年12月9日
论文浅尝 | 多标签分类中的元学习
开放知识图谱
6+阅读 · 2019年9月25日
ICCV2019|基于全局类别表征的小样本学习
极市平台
11+阅读 · 2019年9月21日
从 CVPR 2019 一览小样本学习研究进展
AI科技评论
11+阅读 · 2019年7月25日
近期必读的7篇ICML 2019【Meta-Learning(元学习)】相关论文和代码
专知
51+阅读 · 2019年6月4日
【ICML2019】中科院自动化所-针对小样本问题的学习生成匹配网络方法
专知
59+阅读 · 2019年5月27日
基于小样本学习的意图识别冷启动
PaperWeekly
10+阅读 · 2019年5月12日
小样本学习(Few-shot Learning)综述
PaperWeekly
120+阅读 · 2019年4月1日
论文浅尝 | 用图网络做小样本学习
开放知识图谱
66+阅读 · 2018年6月30日
相关论文
Few-shot Natural Language Generation for Task-Oriented Dialog
Arxiv
30+阅读 · 2020年2月27日
Continual Unsupervised Representation Learning
Arxiv
7+阅读 · 2019年10月31日
Meta-Learning with Dynamic-Memory-Based Prototypical Network for Few-Shot Event Detection
Arxiv
20+阅读 · 2019年10月25日
SCEF: A Support-Confidence-aware Embedding Framework for Knowledge Graph Refinement
Arxiv
7+阅读 · 2019年2月18日
Knowledge Representation Learning: A Quantitative Review
Arxiv
28+阅读 · 2018年12月28日
Dialogue Natural Language Inference
Arxiv
6+阅读 · 2018年11月1日
Commonsense for Generative Multi-Hop Question Answering Tasks
Arxiv
4+阅读 · 2018年9月17日
Dependent Gated Reading for Cloze-Style Question Answering
Arxiv
4+阅读 · 2018年6月1日
R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering
Arxiv
7+阅读 · 2018年5月24日
Multi-Level Factorisation Net for Person Re-Identification
Arxiv
4+阅读 · 2018年4月17日
大家都在搜
RE-NET
壁画
大型语言模型
ETHZ博士论文
无人机蜂群
palantir
无人艇
汽车智能化
笛卡尔
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top