We are creating multimedia contents everyday and everywhere. While automatic content generation has played a fundamental challenge to multimedia community for decades, recent advances of deep learning have made this problem feasible. For example, the Generative Adversarial Networks (GANs) is a rewarding approach to synthesize images. Nevertheless, it is not trivial when capitalizing on GANs to generate videos. The difficulty originates from the intrinsic structure where a video is a sequence of visually coherent and semantically dependent frames. This motivates us to explore semantic and temporal coherence in designing GANs to generate videos. In this paper, we present a novel Temporal GANs conditioning on Captions, namely TGANs-C, in which the input to the generator network is a concatenation of a latent noise vector and caption embedding, and then is transformed into a frame sequence with 3D spatio-temporal convolutions. Unlike the naive discriminator which only judges pairs as fake or real, our discriminator additionally notes whether the video matches the correct caption. In particular, the discriminator network consists of three discriminators: video discriminator classifying realistic videos from generated ones and optimizes video-caption matching, frame discriminator discriminating between real and fake frames and aligning frames with the conditioning caption, and motion discriminator emphasizing the philosophy that the adjacent frames in the generated videos should be smoothly connected as in real ones. We qualitatively demonstrate the capability of our TGANs-C to generate plausible videos conditioning on the given captions on two synthetic datasets (SBMG and TBMG) and one real-world dataset (MSVD). Moreover, quantitative experiments on MSVD are performed to validate our proposal via Generative Adversarial Metric and human study.


翻译:虽然自动内容生成给多媒体社区带来了几十年来的根本性挑战,但最近深层次学习的进展使得这一问题成为了可行的问题。例如,General Aversarial Networks(GANs)是合成图像的有益方法。然而,在利用GANs制作视频时,这不是一件小事。难点来自一个内在结构,在这个结构中,一个视频是视觉一致性和语义依赖框架的序列。这促使我们探索设计GANs制作视频时的语义和时间一致性。在本文中,我们展示了一个新的Temopal D GANs调整了C的功能。例如,GANs-C(GANs-C),其中对发电机网络的输入是潜伏噪音矢量矢量和字幕嵌入的调调,然后转换成一个3Dspotio-脉冲变色的框序列序列序列。与仅将法官配制为假的或真实的、真实的,我们的分析者额外注意到视频是否与正确标题相匹配。特别是,歧视者网络由三个分析者组成者组成了Stual-magoral maor real lial laction laction laction laction laction laction laction laction laction cuild the the lade laction laction laction laction the the laction lade laction laction laction laction the lade laction laction laction cuild cuilts laction lade lade lad lade lade lade lad the lad lad cuild lad cuild lades the lad lad lad lad ladal lad ladal ladal ladal ladal ladal ladal lactions lactions ladal ladal ladal ladal ladal ladal lad ladal ladal ladal ladal ladal ladal ladal ladal ladal lad ladal lad lad

3
下载
关闭预览

相关内容

知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
109+阅读 · 2020年6月10日
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
文字描述生成视频的开源项目
CreateAMind
5+阅读 · 2017年12月31日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
7+阅读 · 2018年4月21日
Arxiv
7+阅读 · 2018年4月11日
Arxiv
6+阅读 · 2018年4月3日
Arxiv
3+阅读 · 2018年3月14日
VIP会员
相关VIP内容
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
109+阅读 · 2020年6月10日
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
相关资讯
Top
微信扫码咨询专知VIP会员