本文介绍NeurIPS 2024录用论文“Harmonizing Visual Text Comprehension and Generation”的主要工作。这篇文章提出了首个OCR领域的大一统多模态文字理解与生成大模型,即TextHarmony。TextHarmony不仅精通视觉文本的感知(文字检测识别等)、理解(KIE、VQA等)和生成(视觉文字生成、编辑、抹除等),而且在单一模型中实现了视觉与语言模态生成的和谐统一。 一、研究背景****

如何让机器像人类一样感知、理解、编辑和生成图像中的文字,一直是人工智能领域的热点问题。当前视觉文字领域的大模型研究专注于单模型生成任务,单模态生成的大模型虽然统一了某些任务,但无法做到OCR领域中大部分任务的大一统,比如Monkey等VLM只能处理文字检测、识别、VQA等文本模态生成的任务,无法胜任文字图像生成、抹除、编辑等图像模态生成的任务,基于Diffusion Model的图像生成模型如AnyText则相反,OCR领域中的多模态生成统一大模型仍然是一个空白。此外,研究人员在探索中发现,在多模态生成大模型中,视觉与语言模态之间的固有不一致性,往往导致性能的显著下降。面对这种不一致性时,最近的一些工作依赖于特定模态的监督微调,从而产生文字生成和图片生成两个不同的模型权重。这种做法违背了统一视觉理解与生成的初衷。为了解决这些难题,作者提出了一种创新的多模态生成模型——TextHarmony。

二、关键问题****

TextHarmony的核心贡献在于其能够统一视觉文本的理解和生成。在以往的研究中,理解与生成任务往往由不同的模型分别处理。例如,一些模型专注于从图像中检测和识别文字,而另一些模型则致力于根据文字描述生成、编辑图像。TextHarmony通过整合这两大类生成模型,使得模型能够同时进行视觉文字理解和视觉文字生成,从而统一了OCR领域中的大部分任务。

然而,研究人员发现,视觉理解和视觉生成之间具有较大的差异,直接将他们整合在一个模型中,会产生严重的模态不一致问题。具体地,多模态生成模型在文本生成(视觉感知、理解)和图像生成上,相比单模态生成模型(视觉理解模型或者图像生成模型)效果有比较明显的劣化。

如图所示,在文本生成任务上,多模态生成模型相比单模态生成模型效果降低5%,在图像生成上效果则最高降低了8%。研究人员提出的TextHarmony则大大缓解了模态不一致问题,其在文本生成和图像生成任务上的指标,都较为接近单模态生成的专家模型。 三、方法原理简述****

TextHarmony主要是基于 ViT+MLLM+Diffusion Model 的结构,其中ViT负责将图像压缩为视觉Token序列。MLLM的输入是视觉Token与文本Token的交叉序列,其输出Token分为两种:(1)文本Token将会被送入一个文本解码器,解码为文本输出;(2)视觉token将会和文本Token拼接,一起作为Diffusion Model的Condition(条件),引导Diffusion Model生成目标图像。通过结合多模态大语言模型和扩散模型,TextHarmony实现了多模态内容的理解与生成。

为了缓解训练过程中的模态不一致问题,研究者提出Slide-LoRA,通过动态聚合模态特定的和模态无关的LoRA(Low-Rank Adaptation)专家,来实现在单一模型中部分解耦图像和文本的生成空间。具体地,Slide-LoRA主要由一个动态门控网络和三个低秩分解模块组成。其中,模态特定LoRA专家专门处理与特定模态(视觉或语言)相关的生成任务,使得模型能够在各自的空间中更有效地学习和生成,而模态无关的LoRA专家处理与两种模态都相关的通用特征,增强了模型对跨模态共享知识的学习。动态门控网络根据输入的文本和图像特征,动态决定在生成过程中使用哪些模态特定的专家和模态无关的专家,从而实现对不同模态生成任务的适应。 TextHarmony的训练分为两阶段,一阶段使用 MARIO-LAION 和 DocStruct4M 等图文对来预训练模型的对齐模块(Perceiver Resampler)和图像解码器,使得模型具备初步的文本生成与图像生成能力。二阶段使用视觉文本的生成、编辑、理解、感知四个类别的数据来做统一微调,这个阶段ViT、对齐模块、图像解码器和Slide-LoRA都被放开,从而学习到统一的多模态理解与生成能力。 四、主要实验及可视化****

研究者在视觉文本场景对TextHarmony做了四个方面的对比实验:理解、感知、生成与编辑。 视觉文本理解:TextHarmony大幅度超过了多模态生成模型,并且接近Monkey等文字理解专家模型。

视觉文本感知:TextHarmony在OCR定位任务上超过了TGDoc、DocOwl1.5等模型。

视觉文本编辑与生成:TextHarmony大幅度超过了所有的多模态理解模型,并且接近TextDiffuser2等专家模型。

文字生成效果对比

文字编辑效果对比

文字图像感知与理解可视化

五、总结****

TextHarmony是首个OCR领域的多模态生成模型,统一了视觉文本理解和生成任务。针对多模态生成模型的模态不一致问题,研究者提出Slide-LoRA模块,在单一模型中实现了视觉与语言模态的和谐统一。TextHarmony展现出了优秀的视觉文字感知、理解、生成和编辑能力,为依赖于视觉文本理解和生成的复杂交互任务提供了革命性的前景。 六、相关资源****

论文链接: https://arxiv.org/abs/2407.16364 代码开源: https://github.com/bytedance/TextHarmony(即将开源)


原文作者:Zhen Zhao, Jingqun Tang, Binghong Wu, Chunhui Lin, Shu Wei, Hao Liu, Xin Tan, Zhizhong Zhang, Can Huang, Yuan Xie

成为VIP会员查看完整内容
27

相关内容

大规模语言模型的个性化:综述
专知会员服务
33+阅读 · 11月4日
设计和构建强大的大语言模型智能体
专知会员服务
49+阅读 · 10月6日
多模态大语言模型
专知会员服务
80+阅读 · 6月25日
[IEEE TPAMI 2024] 将CLIP模型转换为端到端文本识别器
基于预训练语言模型的文本生成
专知会员服务
28+阅读 · 2022年1月28日
[CVPR 2021] 序列到序列对比学习的文本识别
专知会员服务
28+阅读 · 2021年4月14日
专知会员服务
37+阅读 · 2020年10月15日
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
用Attention玩转CV,一文总览自注意力语义分割进展
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
使用 Bert 预训练模型文本分类(内附源码)
数据库开发
102+阅读 · 2019年3月12日
图卷积神经网络的变种与挑战【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月28日
图神经网络综述:模型与应用
PaperWeekly
197+阅读 · 2018年12月26日
实战 | 基于深度学习模型VGG的图像识别(附代码)
七月在线实验室
12+阅读 · 2018年3月30日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
VIP会员
相关VIP内容
大规模语言模型的个性化:综述
专知会员服务
33+阅读 · 11月4日
设计和构建强大的大语言模型智能体
专知会员服务
49+阅读 · 10月6日
多模态大语言模型
专知会员服务
80+阅读 · 6月25日
[IEEE TPAMI 2024] 将CLIP模型转换为端到端文本识别器
基于预训练语言模型的文本生成
专知会员服务
28+阅读 · 2022年1月28日
[CVPR 2021] 序列到序列对比学习的文本识别
专知会员服务
28+阅读 · 2021年4月14日
专知会员服务
37+阅读 · 2020年10月15日
相关资讯
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
用Attention玩转CV,一文总览自注意力语义分割进展
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
使用 Bert 预训练模型文本分类(内附源码)
数据库开发
102+阅读 · 2019年3月12日
图卷积神经网络的变种与挑战【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月28日
图神经网络综述:模型与应用
PaperWeekly
197+阅读 · 2018年12月26日
实战 | 基于深度学习模型VGG的图像识别(附代码)
七月在线实验室
12+阅读 · 2018年3月30日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员