[4]通过充分利用立体图像中的稀疏,密集,语义和几何信息,提出了一种用于自动驾驶的称为立体声 R-CNN 的三维物体检测方法。扩展了 Faster R-CNN 用于立体声输入,以同时检测和关联左右图像中的对象。通过在立体区域提议网络(RPN)之后添加额外分支以预测稀疏关键点,视点和对象维度,其与 2D 左右框组合以计算粗略的 3D 对象边界框。然后,通过使用左右 RoI 的基于区域的光度对准来恢复精确的 3D 边界框。
该方法不需要深度输入和 3D 位置,但是,效果优于所有现有的完全监督的基于图像的方法。在具有挑战性的 KITTI 数据集上的实验表明,该方法在 3D 检测和 3D 定位任务上的性能优于最先进的基于立体的方法约 30%AP。
[7]提出了一种训练卷积 l 神经网络的方法,由于网络中有很多多余的权重,在训练的时候把他们丢弃(pruning),接着训练剩下的网络,然后再把丢弃的参数找回来,可以极大的减少精度损失。并且作者指出,即使是一个参数很少(under-parameterized)的网络,模型也会存在冗余,因为训练过程通常是低效的。
因此作者提出一种简单的训练方式,先训练整个网络,然后根据一定标准裁掉 30% 的 filter,再训练剩下的网络,再把裁掉的 filter 拿回来,用于现有 filters 正交的方式初始化,迭代这个过程 N 次即得到最终模型。