The task of unsupervised motion retargeting in videos has seen substantial advancements through the use of deep neural networks. While early works concentrated on specific object priors such as a human face or body, recent work considered the unsupervised case. When the source and target videos, however, are of different shapes, current methods fail. To alleviate this problem, we introduce JOKR - a JOint Keypoint Representation that captures the motion common to both the source and target videos, without requiring any object prior or data collection. By employing a domain confusion term, we enforce the unsupervised keypoint representations of both videos to be indistinguishable. This encourages disentanglement between the parts of the motion that are common to the two domains, and their distinctive appearance and motion, enabling the generation of videos that capture the motion of the one while depicting the style of the other. To enable cases where the objects are of different proportions or orientations, we apply a learned affine transformation between the JOKRs. This augments the representation to be affine invariant, and in practice broadens the variety of possible retargeting pairs. This geometry-driven representation enables further intuitive control, such as temporal coherence and manual editing. Through comprehensive experimentation, we demonstrate the applicability of our method to different challenging cross-domain video pairs. We evaluate our method both qualitatively and quantitatively, and demonstrate that our method handles various cross-domain scenarios, such as different animals, different flowers, and humans. We also demonstrate superior temporal coherency and visual quality compared to state-of-the-art alternatives, through statistical metrics and a user study. Source code and videos can be found at https://rmokady.github.io/JOKR/ .


翻译:在视频中不受监督的运动重新定位的任务通过使用深层神经网络取得了实质性进展。 虽然早期作品集中在特定对象前端, 如人脸或身体上, 但最近的工作考虑了未经监督的情况。 但是, 当源和目标视频的形状不同, 当前的方法失败。 为了缓解这一问题, 我们引入 JOKR - joint Keypoint 代表, 记录源和目标视频的共同动作, 不需要在前或数据收集前使用任何对象。 通过使用一个域混淆术语, 我们强制执行两个视频的未经监督的键点表达, 使其无法分解。 这鼓励分解该运动中两个区域共有的部分, 以及它们独特的外观和运动。 当显示一个视频的动作时, 我们引入了源和目标视频和目标的相同动作, 我们使用了一个缩略式的动作变换。 我们通过一个域变相, 并且通过实践来显示我们不同层次的变异的变异的变异的变异性图像/ 。 我们的变异的变异的变异的变异性图像和变异的演算方法, 我们的变的变的变式的变式的变式的变式的变式方法, 显示了不同的变式的变式的变式的变式的变式的变式的变式的变式的变式的变式的变式的变式, 我们的变式的变式的变式的变制方法, 我们的变式的变式的变式的变式的变式的变制方法, 我们的变式的变式的变式的变式, 的变式的变式的变式的变式的变式的变式, 我们的变式的变式的变式的变式的变式的变式的变式的变式的变式的变制方法, 的变式的变式的变式的变式的变式的变式的变式, 的变式的变式的变式的变制方法, 的变式的变式的变式的变式的变式的变式的变式的变式的变式的变式的变式的变式, 的变式的变式的变式的变式的变式的变式的变式的变式的变式的变式的变式的变式的变

0
下载
关闭预览

相关内容

商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Arxiv
11+阅读 · 2021年2月17日
VIP会员
相关VIP内容
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Top
微信扫码咨询专知VIP会员