Using synthetic data for training neural networks that achieve good performance on real-world data is an important task as it has the potential to reduce the need for costly data annotation. Yet, a network that is trained on synthetic data alone does not perform well on real data due to the domain gap between the two. Reducing this gap, also known as domain adaptation, has been widely studied in recent years. In the unsupervised domain adaptation (UDA) framework, unlabeled real data is used during training with labeled synthetic data to obtain a neural network that performs well on real data. In this work, we focus on image data. For the semantic segmentation task, it has been shown that performing image-to-image translation from source to target, and then training a network for segmentation on source annotations - leads to poor results. Therefore a joint training of both is essential, which has been a common practice in many techniques. Yet, closing the large domain gap between the source and the target by directly performing the adaptation between the two is challenging. In this work, we propose a novel two-stage framework for improving domain adaptation techniques. In the first step, we progressively train a multi-scale neural network to perform an initial transfer between the source data to the target data. We denote the new transformed data as "Source in Target" (SiT). Then, we use the generated SiT data as the input to any standard UDA approach. This new data has a reduced domain gap from the desired target domain, and the applied UDA approach further closes the gap. We demonstrate the improvement achieved by our framework with two state-of-the-art methods for semantic segmentation, DAFormer and ProDA, on two UDA tasks, GTA5 to Cityscapes and Synthia to Cityscapes. Code and state-of-the-art checkpoints of ProCST+DAFormer are provided.
翻译:将合成数据用于培训在真实世界数据上取得良好业绩的神经网络培训,是一项重要的任务,因为它有可能减少对昂贵数据说明的需求。然而,由于两者之间的域差,仅接受合成数据培训的网络在实际数据方面效果不佳。近年来,对缩小这一差距(又称域适应)进行了广泛研究。在未经监督的域适应框架(UDA)中,使用未贴标签的真实数据进行培训,以获得贴标签的合成数据,以获得在真实数据上运行良好数据的神经网络。在这项工作中,我们侧重于图像数据数据数据数据数据数据数据数据。我们通过直接进行数据更新,从目标数据转换到目标数据转换,从目标数据转换到目标数据转换到目标数据转换,从目标数据转换到目标数据转换到目标数据转换到目标数据。我们从目标数据转换到目标数据转换到目标数据转换到目标数据转换数据,我们逐渐将数据转换到目标数据转换到目标数据转换到目标数据转换到目标数据源。我们直接完成数据转换到目标数据转换到目标数据转换到目标数据。我们直接实现数据转换到目标数据转换到目标数据转换到目标数据转换到目标数据转换到目标数据转换数据数据,我们数据数据数据数据数据转换到目标数据转换到目标数据转换到目标数据转换到目标数据转换到数据,数据数据数据数据数据数据数据数据数据,我们不断进行多数据转换到目标数据转换到数据转换到数据转换到数据转换到数据到数据转换到数据转换到数据转换到数据转换到数据到数据,数据数据数据数据数据数据数据数据数据,数据转换到数据转换到数据转换到数据转换到数据转换到数据转换到数据转换到数据到数据到数据到数据到数据到数据,数据数据数据数据数据,数据数据数据数据数据数据数据数据数据数据,数据到数据数据数据数据到数据到数据到数据到数据到数据到数据到数据到数据到数据到数据到数据到数据到数据源数据,数据,数据,数据数据数据,数据数据到数据到数据到数据到数据到数据到数据到数据到数据到数据到数据到数据到数据到数据到数据到数据到数据到数据到数据到数据到数据到数据到数据到数据到数据到数据转换到数据转换到数据到数据,数据数据数据数据数据数据数据,数据,数据,