Token-based masked generative models are gaining popularity for their fast inference time with parallel decoding. While recent token-based approaches achieve competitive performance to diffusion-based models, their generation performance is still suboptimal as they sample multiple tokens simultaneously without considering the dependence among them. We empirically investigate this problem and propose a learnable sampling model, Text-Conditioned Token Selection (TCTS), to select optimal tokens via localized supervision with text information. TCTS improves not only the image quality but also the semantic alignment of the generated images with the given texts. To further improve the image quality, we introduce a cohesive sampling strategy, Frequency Adaptive Sampling (FAS), to each group of tokens divided according to the self-attention maps. We validate the efficacy of TCTS combined with FAS with various generative tasks, demonstrating that it significantly outperforms the baselines in image-text alignment and image quality. Our text-conditioned sampling framework further reduces the original inference time by more than 50% without modifying the original generative model.


翻译:基于掩码的生成模型由于其并行解码而获得了广泛关注。虽然最近的基于掩码的方法在图像生成质量上已经达到了和扩散式模型同样的水平,但它们同时抽样多个标记而不考虑它们之间的依赖,因此它们的生成性能仍然不够理想。为了解决这个问题,我们在实践中研究了这个问题,并提出了一个可学习的采样模型,文本条件标记选择模型(TCTS),通过局部监督受文本信息启发的方式来选择最优标记。在与给定文本的图像生成上,TCTS不仅提高了生成图像的质量,还提高了生成图像与文本间的语义对齐程度。为了进一步提高生成图像的质量,我们引入了一种一致的采样策略,即适应频率采样。我们将标记分为若干组,然后为每组标记分别做适应频率采样,以提高生成图像的质量。我们的实验结果证明了基于文本条件采样框架的TCTS结合FAS策略在各种图像生成任务上都能显著优于基线模型,在生成图像的质量和图像与文本的语义对齐程度上都取得了重要进展。我们的文本条件采样框架还能将原始推理时间缩短50%以上,而不需要修改原始生成模型。

0
下载
关闭预览

相关内容

【CVPR2023】基于文本驱动软掩码的多模态表示学习
专知会员服务
20+阅读 · 2023年4月10日
专知会员服务
38+阅读 · 2021年6月6日
【文本生成现代方法】Modern Methods for Text Generation
专知会员服务
43+阅读 · 2020年9月11日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月25日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员