Far beyond learning long-range interactions of natural language, transformers are becoming the de-facto standard for many vision tasks with their power and scalabilty. Especially with cross-modal tasks between image and text, vector quantized variational autoencoders (VQ-VAEs) are widely used to make a raw RGB image into a sequence of feature vectors. To better leverage the correlation between image and text, we propose L-Verse, a novel architecture consisting of feature-augmented variational autoencoder (AugVAE) and bidirectional auto-regressive transformer (BiART) for text-to-image and image-to-text generation. Our AugVAE shows the state-of-the-art reconstruction performance on ImageNet1K validation set, along with the robustness to unseen images in the wild. Unlike other models, BiART can distinguish between image (or text) as a conditional reference and a generation target. L-Verse can be directly used for image-to-text or text-to-image generation tasks without any finetuning or extra object detection frameworks. In quantitative and qualitative experiments, L-Verse shows impressive results against previous methods in both image-to-text and text-to-image generation on MS-COCO Captions. We furthermore assess the scalability of L-Verse architecture on Conceptual Captions and present the initial results of bidirectional vision-language representation learning on general domain. Codes available at: https://github.com/tgisaturday/L-Verse


翻译:除了学习自然语言的长距离互动外,变压器正在成为许多视觉任务及其功率和变压器的脱形标准。 特别是在图像和文本之间的交叉模式任务中, 矢量量化变异自动读数器( VQ- VAEs) 被广泛用于将原始 RGB 图像转化为一系列特性矢量。 为了更好地利用图像和文字之间的关联, 我们提议使用L- Verse, 一种由功能强化变异自动变压器( AugVAE) 和双向自动递增变变压器( BiART) 组成的新结构。 用于文本到图像和文本的双向自动递增变变变变变变变变变器( BiARTR ) 。 我们的AGOGVAEE在图像Net1K 验证器上展示了最先进的重建性表现, 加上对野外图像的坚固性。 与其他模型不同, BiART 可以将图像( 或文字) 作为双向生成的参考和生成目标目标。 L- Versecom 直接用于图像到文字的图像的图像的图像的图像的图像- tal- tal- imal- real- imal- im- lade- 和 ladeal- lade- im- s- ladeal- tabal- ladeal- s- la la la la 和 lab- s- s- s- la- s- s- sal- sal- sal- lab- sal- lade- sal- sal- sal- sal- sal- sal- sal- sal- sal- sal- sal- sal- sal- sal- sal- sal- sal- sal- sal- ad- ad- sal- sal- sal- ad- ad- ad- ad- sal- sal- sal- sal- sal- sal- lad- sal- sal- sal- sal- sal- sal- sal- sal- sal- sal- seral- seral- seral- sal-

0
下载
关闭预览

相关内容

自动编码器是一种人工神经网络,用于以无监督的方式学习有效的数据编码。自动编码器的目的是通过训练网络忽略信号“噪声”来学习一组数据的表示(编码),通常用于降维。与简化方面一起,学习了重构方面,在此,自动编码器尝试从简化编码中生成尽可能接近其原始输入的表示形式,从而得到其名称。基本模型存在几种变体,其目的是迫使学习的输入表示形式具有有用的属性。自动编码器可有效地解决许多应用问题,从面部识别到获取单词的语义。
专知会员服务
42+阅读 · 2021年4月23日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
【文本生成现代方法】Modern Methods for Text Generation
专知会员服务
43+阅读 · 2020年9月11日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
命名实体识别(NER)综述
AI研习社
65+阅读 · 2019年1月30日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
Arxiv
3+阅读 · 2020年4月29日
Using Scene Graph Context to Improve Image Generation
Arxiv
7+阅读 · 2018年4月21日
VIP会员
相关资讯
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
命名实体识别(NER)综述
AI研习社
65+阅读 · 2019年1月30日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
Top
微信扫码咨询专知VIP会员