今日 Paper | 点云分类框架;多模式Transformer;神经网络;有序神经元等

2020 年 3 月 5 日 AI科技评论

  目录

用于行人重识别的三元组在线实例匹配丢失

用于DSTC8 AVSD挑战的带指针网络的多模式Transformer

PointAugment:一种自动增强的点云分类框架

寻找稀疏、可训练的神经网络

有序神经元:将树结构集成到递归神经网络中

  用于行人重识别的三元组在线实例匹配丢失

论文名称:Triplet Online Instance Matching Loss for Person Re-identification

作者:Li Ye /Yin Guangqiang /Liu Chunhui /Yang Xiaoyu /Wang Zhiguo

发表时间:2020/2/24

论文链接:https://arxiv.org/abs/2002.10560

推荐原因

这篇论文要解决的是行人重识别问题。

在线实例匹配(OIM)损失函数和三元组(Triplet)损失函数是行人重识别问题的主要方法。但这两个损失函数都有缺点,OIM损失对所有样本均等对待,没有关注困难样本,三重损失以复杂且繁琐的方式来处理批处理样本,因此收敛速度很缓慢。针对这些问题,这篇论文提出了三元组在线实例匹配(TOIM)损失函数,该函数能着重于困难样本并能有效地提高行人重识别模型的准确性。TOIM结合了OIM损失和Triplet损失的优点,并简化了批处理过程,从而使收敛更快。

  用于DSTC8 AVSD挑战的带指针网络的多模式Transformer

论文名称:Multimodal Transformer with Pointer Network for the DSTC8 AVSD Challenge

作者:Le Hung /Chen Nancy F.

发表时间:2020/2/25

论文链接:https://arxiv.org/abs/2002.10695

推荐原因

这篇论文要解决的是视听场景感知对话(Audio-Visual Scene-Aware Dialog,AVSD)问题。

视听场景感知对话要求对话代理生成自然语言响应以解决用户查询并进行对话。这是一项具有挑战的任务,因为其包含多模态视频功能,例如包括文本、视觉和音频特征。对话代理还需要学习用户话语和系统响应之间的语义依赖,以便与人类进行连贯对话。这篇论文介绍该团队向第八届对话系统技术挑战赛(Dialogue System Technology Challenge)提交的AVSD参赛作品,采用了点积方式来结合输入视频的文本和非文本特征,通过在每个生成步骤中采用指针网络指向来自多个源序列的Tokens,进一步增强对话代理的生成能力。

  PointAugment:一种自动增强的点云分类框架

论文名称:PointAugment: an Auto-Augmentation Framework for Point Cloud Classification

作者:Li Ruihui /Li Xianzhi /Heng Pheng-Ann /Fu Chi-Wing

发表时间:2020/2/25

论文链接:https://arxiv.org/abs/2002.10876

推荐原因

这篇论文被CVPR 2020接收,要解决的是点云分类的问题。

这篇论文提出了一个名为PointAugment的点云分类框架,当训练分类网络时,该框架会自动优化和扩充点云样本以丰富数据多样性。与现有的2D图像自动增强方法不同,PointAugment具有样本感知功能,并采用对抗学习策略来共同优化增强器网络和分类网络,学习生成最适合分类器的增强样本。PointAugment根据形状分类器和点位移来构造可学习的点增强函数,并根据分类器的学习进度精心设计损失函数以采用增强样本。PointAugment在改善形状分类和检索中的有效性和鲁棒性得到了实验的验证。

  寻找稀疏、可训练的神经网络

论文名称:THE LOTTERY TICKET HYPOTHESIS: FINDING SPARSE, TRAINABLE NEURAL NETWORKS

作者:Jonathan Frankle /Michael Carbin

发表时间:2019/3/3

论文链接:https://openreview.net/pdf?id=rJl-b3RcF7

推荐原因

核心问题:一个标准的剪枝技术能够自然地发现子网络结构,这些子网络的初始化能够帮助网络更有效地训练。

创新点:本研究提出一种 lottery ticket hypothesis:对于那些包含子网络 结构的密集、随机初始化前馈网络,当单独训练这些子网络时,通过相似的训练迭代次数能够取得与原始网络相当的测试性能。而

研究意义:实验结果表明,在 MNIST 和 CIFAR-10 数据集上,子网络的规模始终比几种全连接结构和卷积神经网络小10%-20%。当规模超过这个范围时,子网络能够比原始网络有更快的学习速度和更好的测试精度表现。

  有序神经元:将树结构集成到递归神经网络中

论文名称:ORDERED NEURONS: INTEGRATING TREE STRUCTURES INTO RECURRENT NEURAL NETWORKS

作者:Yikang Shen /Shawn Tan /Alessandro Sordoni /Aaron Courville

发表时间:2019/5/8

论文链接:https://openreview.net/pdf?id=B1l6qiR5F7

推荐原因

核心问题:标准的 LSTM 结构允许不同的神经元跟踪不同时间维度信息,但它对于层级结构建模中的各组成没有明确的偏向。

创新点:本文提出神经元排序策略来添加一个归纳偏置量,当主输入向量和遗忘门结构确保给定的神经网络更新时,后续跟随的所有神经元也将随之更新。

研究意义:这种集成树结构的新颖循环神经网络 ON-LSTM在四种不同的 NLP 任务:语言建模、无监督解析、目标句法评估和逻辑推理上都取得了良好的表现。

  论文作者团队招募

为了更好地服务广大 AI 青年,AI 研习社正式推出全新「论文」版块,希望以论文作为聚合 AI 学生青年的「兴趣点」,通过论文整理推荐、点评解读、代码复现。致力成为国内外前沿研究成果学习讨论和发表的聚集地,也让优秀科研得到更为广泛的传播和认可。

我们希望热爱学术的你,可以加入我们的论文作者团队。

加入论文作者团队你可以获得

    1.署着你名字的文章,将你打造成最耀眼的学术明星

    2.丰厚的稿酬

    3.AI 名企内推、大会门票福利、独家周边纪念品等等等。

加入论文作者团队你需要:

    1.将你喜欢的论文推荐给广大的研习社社友

    2.撰写论文解读

如果你已经准备好加入 AI 研习社的论文兼职作者团队,可以添加运营小姐姐的微信(ID:julylihuaijiang),备注“论文兼职作者”

登录查看更多
0

相关内容

行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补目前固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。 由于不同摄像设备之间的差异,同时行人兼具刚性和柔性的特性 ,外观易受穿着、尺

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
59+阅读 · 2020年6月25日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
25+阅读 · 2020年5月25日
注意力图神经网络的多标签文本分类
专知会员服务
111+阅读 · 2020年3月28日
Reformer:一个高效的 Transformer
TensorFlow
9+阅读 · 2020年2月13日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
利用神经网络进行序列到序列转换的学习
AI研习社
12+阅读 · 2019年4月26日
这种有序神经元,像你熟知的循环神经网络吗?
机器之心
6+阅读 · 2018年12月20日
CVPR 2018 论文解读(部分)
计算机视觉战队
5+阅读 · 2018年5月8日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Arxiv
7+阅读 · 2019年4月8日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Arxiv
9+阅读 · 2018年5月24日
VIP会员
Top
微信扫码咨询专知VIP会员