基于单眼图像进行3D对象检测是一项极具挑战性的工作,因为现有系统基本完全依赖单眼图像的视角,其中物体的形状和大小都可能有比较大的变形,深度和距离也不易推测。剑桥大学的Thomas Roddick等提出了一种基于端到端深度学习模型的正交特征变换,将图像特征映射至3D空间。这项工作在KITTI 3D对象评测上取得了当前最优的表现。
地址:https://arxiv.org/abs/1811.08188
芬兰坦佩雷理工大学和助听器生产商Oticon研发中心Eriksholm合作,研究如何基于卷积循环神经网络分离音源。研究人员Gaurav Naithani等结合了卷积层和LSTM层,在低延迟(< 10ms)、可用训练数据相对较小的条件下,表现超过前馈深度神经网络和LSTM网络。这一方法的动机是使用卷积层学习输入的时频表示的时空结构,使用LSTM层利用长时上下文。
地址:http://www.cs.tut.fi/~tuomasv/papers/PID4978439.pdf
FAIR何凯明最新翻案,计算机视觉领域习以为常的做法,深度迁移学习的经典例子,ImageNet预训练怕是没有大家想象的那么好。ImageNet还是有用的,可以加速收敛,但是除非目标任务的数据十分匮乏,你别指望它提升表现,或者防止过拟合。想要提升表现,老老实实标注图像才是王道。
地址:https://arxiv.org/abs/1811.08883