We study a practical yet hasn't been explored problem: how a drone can perceive in an environment from different flight heights. Unlike autonomous driving, where the perception is always conducted from a ground viewpoint, a flying drone may flexibly change its flight height due to specific tasks, requiring the capability for viewpoint invariant perception. Tackling the such problem with supervised learning will incur tremendous costs for data annotation of different flying heights. On the other hand, current semi-supervised learning methods are not effective under viewpoint differences. In this paper, we introduce the ground-to-aerial perception knowledge transfer and propose a progressive semi-supervised learning framework that enables drone perception using only labeled data of ground viewpoint and unlabeled data of flying viewpoints. Our framework has four core components: i) a dense viewpoint sampling strategy that splits the range of vertical flight height into a set of small pieces with evenly-distributed intervals, ii) nearest neighbor pseudo-labeling that infers labels of the nearest neighbor viewpoint with a model learned on the preceding viewpoint, iii) MixView that generates augmented images among different viewpoints to alleviate viewpoint differences, and iv) a progressive distillation strategy to gradually learn until reaching the maximum flying height. We collect a synthesized and a real-world dataset, and we perform extensive experimental analyses to show that our method yields 22.2% and 16.9% accuracy improvement for the synthesized dataset and the real world. Code and datasets are available on https://github.com/FreeformRobotics/Progressive-Self-Distillation-for-Ground-to-Aerial-Perception-Knowledge-Transfer.
翻译:我们研究了一个实际的但还没有被探索过的问题: 无人机如何从不同飞行高度的环境中感知到不同飞行高度。 与自动驾驶不同, 其感知总是从地面角度进行的自主驾驶不同, 飞行无人机可能会因特定任务而灵活地改变飞行高度, 需要有辨别异性感知的能力 。 以监督的学习解决这样的问题将会为不同飞行高度的数据批注带来巨大的成本。 另一方面, 目前半监督的学习方法在观点差异下是无效的。 在本文中, 我们引入了地对地对空的感知知识传输, 并提出了一个渐进的半监督的学习框架, 使无人机的感知更加精准化框架, 仅使用贴有标签的地面观点数据和未标注的飞行角度的数据, 可以灵活地改变飞行高度。 我们的框架有四个核心的抽样战略, 将垂直飞行高度分成一组小片段, 平衡的间隔, (二) 最近的近亲近的假标签可以推断最近的邻居观点的标签, 和在前一个角度所学的模型, 三) Mix Viver, 在不同的视图中增加图像, 来增加图像, 以缩小不同的观点, 以缩小不同观点的图像, 以缩小的图像, 以缩小的视野, 以缩小的视野, 最大观点的轨道的轨道的轨道的轨道-,,, 和不断的轨道- 分析到飞行的轨道-,, 的轨道-, 和 将 的轨道- 采集的轨道- 采集的轨道-, 的轨道- 采集到 和 的轨道-, 采集的轨道- 采集到 的轨道- 采集到 的轨道-, 采集到 的轨道-,, 的轨道-,, 采集到 的 和 的轨道- 速度- 学到 和 的 的 和 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 和 的 的 的 的 的 的 的 的 的