Transformer模型在各类人工智能领域取得了显著进展,包括自然语言处理、计算机视觉和音频处理。这一成功自然引起了学术界和工业界研究人员的广泛关注。因此,许多Transformer变体(通常称为X-former)被开发用于这些领域。然而,针对这些特定模态转换的全面而系统的审查仍然缺乏。模态转换涉及将数据从一种表示形式转化为另一种形式,模仿人类整合和解释感官信息的方式。本文对应用于文本、视觉和语音等主要模态的基于Transformer模型进行了全面回顾,讨论了它们的架构、转换方法和应用。通过综合模态转换领域的文献,这篇综述旨在强调Transformer在推动AI驱动的内容生成和理解中的多样性和可扩展性。

人工智能(AI)受人类感知能力的启发,例如视觉、听觉和阅读,并试图复制这些能力。通常,模态与特定的传感器相关联,形成一个独特的通信通道,如视力、语音和书面语言。人类在感官感知中具有一种基本过程,能够通过整合来自多个感官模态的数据,在动态和不受约束的情况下高效地与世界互动。每个模态作为信息的独立来源,具有其独特的统计特征。例如,一张描绘“大象在水中嬉戏”的照片通过无数像素传递视觉信息,而类似的文字描述则使用不同的词语来传达这一场景。同样,声音可以通过频谱图或语音特征来传达相同的事件。数据转换AI系统必须接收来自特定模态的输入,处理、理解并以不同的模态再现其内容,模仿人类的感知方式。模态转换(MC)是一种广泛的方法,用于构建能够从一种表示模态中提取并转换信息到另一种模态的人工智能模型。

基于Transformer的(TB)技术通过利用其先进的注意力机制,准确地表示和转换各种形式的输入,极大地改变了数据从一种模态转换到另一种模态的过程。这些模型在将文本转换为语音、语音转换为文本、语音转换为图像、图像转换为文本,甚至跨模态翻译(如从文本生成图像)等任务中表现出色。Transformer通过捕捉各种数据模态间的复杂依赖关系和上下文交互,促进了顺畅且高度精确的转换。由于其适应性和可扩展性,它们在扩展自然语言处理、计算机视觉和多模态数据集成的应用中起到了关键作用,推动了AI驱动的内容生产和理解的进步。

相关综述:许多综述已经探讨了基于Transformer(TB)模型在文本处理、计算机视觉和语音处理领域的应用。这些综述通常回顾了专注于单一模态的研究论文,处理输入数据以生成特定应用所需的输出。同时,还有一些关于数据融合的综述,旨在整合来自不同模态的数据。这些论文通常回顾了各种类型的融合模型和输入类型,如文本、视觉和语音。例如,Davis等人关于使用Transformer进行多模态学习的综述探讨了多种模态协同使用的情况,展示了在需要从多种数据源中获得全面理解的任务中所取得的显著改进。总的来说,目前还没有一篇综述全面回顾不同模态(文本、视觉和语音)间的数据转换相关的文献。

•** 论文贡献**:在本文中,我们对用于数据模态转换的基于Transformer的模型进行了全面回顾。我们重点关注三个主要模态:文本、视觉和语音。对于每个Transformer模型,输入可以是这些模态中的任何一种,而输出可以是相同或不同的模态。例如,给定文本输入,输出可以是翻译后的文本(机器翻译)、图像(故事可视化)或语音。同样,对于视觉和语音输入,输出也可以转换为其他任一模态。我们系统地回顾了所有使用基于Transformer模型进行模态转换的相关文献(见图1)。

•** 范围**:我们的综述限制在2017年至2024年间发表的论文,因为Transformer技术是Vaswani等人在2017年提出的,相对较新。聚焦于这一时期使我们能够包含与模态表示和转换相关的最新和最相关的Transformer进展。引用分析显示,从2017年到2024年,共有95种方法,其中在2020年至2024年间的兴趣达到了高峰。本综述旨在通过整合这些领域中最先进的Transformer模型,为研究人员和实践者提供服务。 本综述的其余部分结构如下:第二部分汇集了所有关于TB模型的相关综述。第三部分介绍了Transformer的架构和关键组件。第四、五、六部分分别回顾了以文本、视觉和语音为输入的TB模型,其输出可以是这三种模态中的任何一种。第七部分讨论了Transformer的其他可能引起研究人员兴趣的方面,并总结了本文的内容。

成为VIP会员查看完整内容
33

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
基于大型语言模型的软件工程智能体综述
专知会员服务
37+阅读 · 9月6日
自然语言处理中的探针可解释方法综述
专知会员服务
22+阅读 · 8月1日
基于内在质量约束的文本生成和评价综述
专知会员服务
17+阅读 · 6月9日
《高效多模态大型语言模型》综述
专知会员服务
61+阅读 · 5月20日
《多模态大模型少样本自适应》综述
专知会员服务
93+阅读 · 1月4日
扩散模型图像超分辨率等综述
专知会员服务
23+阅读 · 1月2日
Transformer推理的全栈优化综述
专知会员服务
82+阅读 · 2023年3月4日
数据受限条件下的多模态处理技术综述
专知会员服务
88+阅读 · 2022年7月16日
专知会员服务
108+阅读 · 2020年5月21日
数据受限条件下的多模态处理技术综述
专知
16+阅读 · 2022年7月16日
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
最新《图嵌入组合优化》综述论文,40页pdf
3倍加速CPU上的BERT模型部署
ApacheMXNet
11+阅读 · 2020年7月13日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
21+阅读 · 2023年3月17日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
VIP会员
相关VIP内容
基于大型语言模型的软件工程智能体综述
专知会员服务
37+阅读 · 9月6日
自然语言处理中的探针可解释方法综述
专知会员服务
22+阅读 · 8月1日
基于内在质量约束的文本生成和评价综述
专知会员服务
17+阅读 · 6月9日
《高效多模态大型语言模型》综述
专知会员服务
61+阅读 · 5月20日
《多模态大模型少样本自适应》综述
专知会员服务
93+阅读 · 1月4日
扩散模型图像超分辨率等综述
专知会员服务
23+阅读 · 1月2日
Transformer推理的全栈优化综述
专知会员服务
82+阅读 · 2023年3月4日
数据受限条件下的多模态处理技术综述
专知会员服务
88+阅读 · 2022年7月16日
专知会员服务
108+阅读 · 2020年5月21日
相关资讯
数据受限条件下的多模态处理技术综述
专知
16+阅读 · 2022年7月16日
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
最新《图嵌入组合优化》综述论文,40页pdf
3倍加速CPU上的BERT模型部署
ApacheMXNet
11+阅读 · 2020年7月13日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
相关基金
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
21+阅读 · 2023年3月17日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
微信扫码咨询专知VIP会员