我们考虑的任务是在广泛的语义类别中,由自然音频样本引导生成多样化且真实的视频。对于这个任务,视频需要在全局和时间上与输入音频对齐:在全局上,输入音频与整个输出视频在语义上相关联;在时间上,输入音频的每个片段与该视频的相应片段相关联。我们利用了现有的基于文本条件的视频生成模型和一个预训练的音频编码器模型。所提出的方法基于一个轻量级适配器网络,它学习将基于音频的表示映射到文本到视频生成模型所期望的输入表示。因此,它也能实现基于文本、音频,以及我们所能确定的首次,基于文本和音频的视频生成。我们在三个数据集上广泛验证了我们的方法,这些数据集展示了音频视频样本的显著语义多样性,并进一步提出了一个新的评估指标(AV-Align),以评估生成视频与输入音频样本的对齐程度。AV-Align基于在两种模态中检测和比较能量峰值。与最近的最先进方法相比,我们的方法生成的视频与输入声音在内容和时间轴上更好地对齐。我们还展示了我们的方法生成的视频具有更高的视觉质量和更多样化。代码和样本可在以下网址获取:https://pages.cs.huji.ac.il/adiyoss-lab/TempoTokens。

成为VIP会员查看完整内容
16

相关内容

【ICML2023】POUF:面向提示的大型预训练模型无监督微调
专知会员服务
37+阅读 · 2023年5月18日
【ICML2023】通过离散扩散建模实现高效和度引导的图生成
专知会员服务
14+阅读 · 2021年10月15日
专知会员服务
18+阅读 · 2021年9月23日
专知会员服务
18+阅读 · 2021年9月13日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【深度强化学习教程】高质量PyTorch实现集锦
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
149+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
378+阅读 · 2023年3月31日
Arxiv
64+阅读 · 2023年3月26日
Arxiv
19+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员