机器之心 & ArXiv Weekly Radiostation
参与:杜伟、楚航、罗若天
本周的重要论文包括上海交大与 MIT 的联合项目 SwingBot 以及华盛顿大学升级版背景抠图 background matting 方法。
SwingBot: Learning Physical Features from In-hand Tactile Exploration for Dynamic Swing-up Manipulation
Point Transformer
Canonical Capsules: Unsupervised Capsules in Canonical Pose
Network Representation Learning Based Recommender Systems
Real-Time High-Resolution Background Matting
A Theory of Abstraction in Reinforcement Learning
Disentangled Information Bottleneck
ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
论文 1:SwingBot: Learning Physical Features from In-hand Tactile Exploration for Dynamic Swing-up Manipulation
摘要:
人类善于利用手指触觉来感知物体的物理特性(包括质量、重心、转动惯量、表面摩擦等),从而完成高难度的控制任务。在不远的将来,机器人也会拥有触觉分析能力。在刚刚结束的机器人顶会 IROS 2020 上,
上海交大 & MIT 联合项目 SwingBot 为我们展示了如何让机器人通过触觉传感器来学习感知物体复杂的物理特性(tactile exploration),从而完成一个高难度的甩笔任务(in-hand object swing-up)
。
该项目通过对多种触觉探索动作的信息融合,让机器人端到端的去学习概括手中物体的物理特性,并依靠这个物理特征来实现高难度的手上控制任务(in-hand swing-up)。
推荐:
该工作也摘得 IROS 2020 大会的最佳论文奖项。
摘要:
自注意力网络已经彻底改变了自然语言处理,并在图像分类和目标检测等图像分析任务中取得了令人瞩目的进步。受此成功启发,
来自牛津大学、香港中文大学和英特尔实验室的研究者深入分析了自注意力网络在三维点云处理中的应用
。他们设计了点云的自注意力层,并使用这些层来构造诸如语义场景分割、对象组件分割和对象分类等任务的自注意力网络。本文提出的 Point Transformer 设计改进了以往跨领域和跨任务的研究工作。
用于语义分割(上)和分类(下)的 Point transformer 网络。
Point Transformer 可以作为对象分类、各类 3D 点云理解任务的骨干网络。
推荐:
论文一作 Hengshuang Zhao 为牛津大学博士后研究生。
论文 3:Canonical Capsules: Unsupervised Capsules in Canonical Pose
摘要:
理解对象是计算机视觉的核心问题之一。传统方法而言,理解对象任务可以依赖于大型带注释的数据集,而无监督方法已经消除了对标签的需求。近来,研究人员试图将这些方法扩展到 3D 点云问题上,但无监督 3D 学习领域却进展寥寥。
近日,包括 Weiwei Sun、Andrea Tagliasacchi、Geoffrey Hinton 等来自英属哥伦比亚大学、谷歌研究院、多伦多大学的研究者提出了
用于 3D 点云的无监督胶囊网络
。具体而言,研究者通过排列等变(permutation-equivariant)的注意力计算对象的胶囊分解,并通过训练成对的随机旋转对象来自监督该过程。本研究的核心思想是将注意力掩模聚合为语义关键点,并使用它们来监督满足胶囊不变性或等方差的分解。这不仅可以训练语义上一致的分解,还能够学习以对象为中心的推理的规范化操作。在这种情况下,既不需要分类标签,也不需要手动对齐的训练数据集进行训练。
定量分析的结果,本文方法在对齐和未对齐的设置下均取得了 SOTA 的性能结果。
定性分析的结果,研究者给出了基于分解的 3D 点云重建方法以及 3D-PointCapsNet [58]、AtlasNetV2 [13] 的重建结果。
推荐:
Hinton 对此表示:在不受监督的情况下找到一个对象的自然组件以及这些组件的内在参照系是学习将解析图像转换为局部整体层级结构的重要一步。如果以点云开始,则可以做到。
论文 4:Network Representation Learning Based Recommender Systems
摘要:
近年来,网络特征学习(network representation learning)逐渐成为机器学习中的一 个热门的研究方向。网络特征学习试图为一个网络中的每一个节点学习得到一个低维表 示向量,同时保持其原有的结构信息。由于推荐系统中天然存在着大量的网络结构,因 此,将网络特征学习与推荐系统相结合,用网络特征学习的方法去处理推荐系统中的相 关特征,可以有效地增强推荐系统的学习能力,提高推荐系统的精确度和用户满意度, 从而为现实生活中的各类互联网应用提供更优良的用户体验,进而减轻信息爆炸带来的 负面影响,提升整体经济效率。
本文的主题为基于网络特征学习的个性化推荐系统。
预测微博用户对名人的情感所使用的三个网络结构示意图。从左到右分别为:(a)情感网络 (交互图);(b)社交网络;(c)知识图谱。
将一个网络通过特征学习得到不同粒度的特征表示的示意图。
推荐:
上海交通大学博士论文探讨基于网络特征学习的个性化推荐系统。
论文 5:Real-Time High-Resolution Background Matting
摘要:
背景替换是电影特效中的关键一环,在 Zoom、Google Meet 和 Microsoft Teams 等视频会议工具中得到广泛应用。除了增加娱乐效果之外,背景替换可以增强隐私保护,特别是用户不愿在视频会议中向他人分享自身位置以及环境等细节时。而这面临着一项关键挑战:视频会议工具的用户通常无法获得电影特效背景替换所使用的绿幕或其他物理条件。
为了使用户更方便地替换背景,研究人员陆续开发了一系列抠图方法。今年 4 月份,华盛顿大学研究者提出了 background matting 方法,不在绿幕前拍摄也能完美转换视频背景,让整个世界都变成你的绿幕。但是,这项研究无法实现实时运行,只能以低帧率处理低分辨率下(512×512)的背景替换,有很多需要改进的地方。
八个月过去,这些研究者推出了
background matting 2.0 版本,并表示这是一种完全自动化、实时运行的高分辨率抠图方法,分别以 30fps 的帧率在 4k(3840×2160)和 60fps 的帧率在 HD(1920×1080)图像上实现 SOTA 结果
。
推荐:
单块 GPU 实现 4K 分辨率每秒 30 帧,华盛顿大学实时视频抠图再升级,毛发细节到位。
论文 6:A Theory of Abstraction in Reinforcement Learning
摘要:
布朗大学 David Abel 在其博士论文中提出了
强化学习中的抽象理论
。具体而言,他首先提出了执行抽象过程的函数的三个需求,分别是保留近似最优行为的表征;高效地学习和构建;减少规划或学习时间。然后提出了一系列新的算法和分析,以阐明智能体如何根据这些需求来学习抽象。
利用状态抽象(state abstraction)的终身强化学习。
论文 7:Disentangled Information Bottleneck
摘要:
现有的有监督解耦方法,比如把中间表征解耦成种类相关的表征和种类无关的表征,大多基于交换生成的经验性框架,缺乏理论指导,无法保证种类相关表征中不包含种类无关的信息。在本文中,
来自上海交通大学的研究者尝试建立信息瓶颈(Information Bottleneck, IB)和有监督解耦之间的联系,为有监督解耦提供理论指导
。
研究者给出了关于优化目标的最大化压缩一致性的性质定义。
研究者验证了所提方法在 IB 平面(横轴代表 I(X;T),纵轴代表 I(T;Y))上的表现行为。
通过可视化结果,本文方法可以较好地展示出解耦效果。
推荐:
有监督解耦与信息压缩相结合,上交新型信息瓶颈算法实现良好的泛化、鲁棒性能。
ArXiv Weekly Radiostation
机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:
1. Pre-Training Transformers as Energy-Based Cloze Models. (from Quoc V. Le, Christopher D. Manning)
2. Reinforced Multi-Teacher Selection for Knowledge Distillation. (from Jian Pei)
3. A Lightweight Neural Model for Biomedical Entity Linking. (from Gaël Varoquaux)
4. Show or Tell? Demonstration is More Robust to Changes in Shared Perception than Explanation. (from Thomas L. Griffiths)
5. R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic Matching. (from Meng Wang)
6. Improving Zero Shot Learning Baselines with Commonsense Knowledge. (from Erik Cambria)
7. Clinical Temporal Relation Extraction with Probabilistic Soft Logic Regularization and Global Inference. (from Kai-Wei Chang)
8. Learning to Rationalize for Nonmonotonic Reasoning with Distant Supervision. (from Yejin Choi)
9. Improving Task-Agnostic BERT Distillation with Layer Mapping Search. (from Qun Liu)
10. Learning from the Best: Rationalizing Prediction by Adversarial Information Calibration. (from Thomas Lukasiewicz)
1. Reconstructing Hand-Object Interactions in the Wild. (from Jitendra Malik)
2. Human Mesh Recovery from Multiple Shots. (from Jitendra Malik)
3. Uncertainty-Aware Deep Calibrated Salient Object Detection. (from Richard Hartley)
4. D2-Net: Weakly-Supervised Action Localization via Discriminative Embeddings and Denoised Activations. (from Ming-Hsuan Yang, Ling Shao)
5. Neural Radiance Flow for 4D View Synthesis and Video Processing. (from Joshua B. Tenenbaum)
6. EventHands: Real-Time Neural 3D Hand Reconstruction from an Event Stream. (from Hans-Peter Seidel, Christian Theobalt)
7. FMODetect: Robust Detection and Trajectory Estimation of Fast Moving Objects. (from Jiri Matas, Marc Pollefeys)
8. PanoNet3D: Combining Semantic and Geometric Understanding for LiDARPoint Cloud Detection. (from Martial Hebert)
9. Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data Augmentation. (from Ruigang Yang, Dinesh Manocha)
10. SAfE: Self-Attention Based Unsupervised Road Safety Classification in Hazardous Environments. (from Dinesh Manocha)
1. Sample-Efficient Reinforcement Learning via Counterfactual-Based Data Augmentation. (from Bernhard Schölkopf)
2. Convex Potential Flows: Universal Probability Distributions with Optimal Transport and Convex Optimization. (from Aaron Courville)
3. NeurIPS 2020 Competition: Predicting Generalization in Deep Learning. (from Samy Bengio, Isabelle Guyon)
4. EarthNet2021: A novel large-scale dataset and challenge for forecasting localized climate impacts. (from Markus Reichstein)
5. Masksembles for Uncertainty Estimation. (from Pascal Fua)
6. Mitigating bias in calibration error estimation. (from Jonathon Shlens)
7. Multi-modal AsynDGAN: Learn From Distributed Medical Image Data without Sharing Private Information. (from Tong Zhang, Dimitris N. Metaxas)
8. Validate and Enable Machine Learning in Industrial AI. (from Eric P. Xing)
9. Learning Accurate Long-term Dynamics for Model-based Reinforcement Learning. (from Kristofer S. J. Pister)
10. Interactive Weak Supervision: Learning Useful Heuristics for Data Labeling. (from Eric Xing)