In this paper, we tackle the challenging task of Panoramic Image-to-Image translation (Pano-I2I) for the first time. This task is difficult due to the geometric distortion of panoramic images and the lack of a panoramic image dataset with diverse conditions, like weather or time. To address these challenges, we propose a panoramic distortion-aware I2I model that preserves the structure of the panoramic images while consistently translating their global style referenced from a pinhole image. To mitigate the distortion issue in naive 360 panorama translation, we adopt spherical positional embedding to our transformer encoders, introduce a distortion-free discriminator, and apply sphere-based rotation for augmentation and its ensemble. We also design a content encoder and a style encoder to be deformation-aware to deal with a large domain gap between panoramas and pinhole images, enabling us to work on diverse conditions of pinhole images. In addition, considering the large discrepancy between panoramas and pinhole images, our framework decouples the learning procedure of the panoramic reconstruction stage from the translation stage. We show distinct improvements over existing I2I models in translating the StreetLearn dataset in the daytime into diverse conditions. The code will be publicly available online for our community.


翻译:在本文中,我们首次解决了全景图像转换(Pano-I2I)这一具有挑战性的任务。由于全景图像的几何畸变以及缺少具有不同条件(例如天气或时间)的全景图像数据集,这项任务非常困难。为了解决这些挑战,我们提出了一种全景畸变感知的I2I模型,该模型在保留全景图像结构的同时,一致性地翻译其来自针孔图像的全局样式。为了减轻朴素360全景图像转换中的畸变问题,我们将球形位置嵌入引入到我们的变压器编码器中,引入了一个无畸变鉴别器,并应用基于球面的旋转进行增强及其综合。我们还设计了一个内容编码器和一个风格编码器来感知变形,以处理全景图像和针孔图像之间的大领域差距,从而使我们能够适应多种针孔图像条件。此外,考虑到全景图像和针孔图像之间的巨大差异,我们的框架将全景重建阶段的学习过程与转换阶段分离。我们展示了在不同条件下将StreetLearn数据集中的白天翻译成不同条件时,我们相对于现有I2I模型的明显改进。我们的代码将公开在线上供我们的社区使用。

0
下载
关闭预览

相关内容

【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM
泡泡机器人SLAM
23+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月26日
Arxiv
16+阅读 · 2021年1月27日
Arxiv
17+阅读 · 2021年1月21日
W-net: Bridged U-net for 2D Medical Image Segmentation
Arxiv
19+阅读 · 2018年7月12日
VIP会员
相关VIP内容
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员