摘要: 当前,以网络数据为代表的跨媒体数据呈现爆炸式增长的趋势,呈现出了跨模态、跨数据源的复杂关联及动态演化特性,跨媒体分析与推理技术针对多模态信息理解、交互、内容管理等需求,通过构建跨模态、跨平台的语义贯通与统一表征机制,进一步实现分析和推理以及对复杂认知目标的不断逼近,建立语义层级的逻辑推理机制,最终实现跨媒体类人智能推理。文中对跨媒体分析推理技术的研究背景和发展历史进行概述,归纳总结视觉-语言关联等任务的关键技术,并对研究应用进行举例。基于已有结论,分析目前跨媒体分析领域所面临的关键问题,最后探讨未来的发展趋势。
http://www.jsjkx.com/CN/10.11896/jsjkx.210200086
随着互联网及媒体技术的不断普及,以网络内容为代表 的媒体内容数据逐渐呈现跨模态、跨数据源的复杂关联与协 同动态演化特性.如图1所示,以“新冠疫情”主题为例,不同 平台、不同来源的文本、图像、视频、音频等信息共同刻画相同 或相关的主题内容,呈现复杂、多层级的语义关联关系.在物 理空间中,信息技术与传统行业的不断融合也促成了不同模 态、不同来源但具有复杂相关性的多源异构数据和信息的爆 炸式增长.例如,在城市环境下,各种各样的摄像头及环境传 感器,对物理世界中同一个体或场景进行协同感知和记录.网 络空间与物理空间的不同来源、不同模态的数据,以多个角度 共同刻画了相同或相关的主题和事件,形成了“跨媒体”信息.
与传统多媒体[1]数据相比,跨媒体信息呈现出了迥然不 同的特点.首先,包含不同模态的多媒体数据之间呈现出内蕴同步的语义关联,而跨媒体的不同来源、不同模态的信息呈 现动态、复杂、多层次的时空、语义关联.其次,跨媒体形式异 构、内容多样、分布复杂,传统的分析处理方法大多基于独立 同分布等假设,难以对海量复杂的跨媒体信息进行有效利用 和模型学习.最后,跨媒体涉及的应用场景比多媒体更加广 泛,如有害网络内容监测与管理、跨媒体内容搜索、推荐、问答 等[2].跨媒体呈现的上述特点对跨媒体分析与推理技术提出 了迫切的需求.
借助强大的脑功能,人类对不同模态的信息进行符号化 转换和统一表征,进而在符号表示的基础上实现推理与决策, 具有天然的跨媒体综合处理能力.类似于人类大脑,实现海 量、复杂、异构的跨媒体语义贯通与统一表征是人工智能系统 能够有效处理跨媒体信息的先决条件.首先,不同媒体信息 的统一表征与关联度量,是实现跨媒体分析与推理的基础. 在统一表征与度量的基础上,实现跨媒体内容的理解与转换, 是提升跨媒体语义贯通水平的重要方式.其次,在跨媒体内 容理解的基础上实现跨媒体推理与决策,是跨媒体类人智能 发展必须解决的关键技术问题.跨媒体分析推理技术的发 展,对实际应用中的问题也提供了更多的关键技术支撑.
本文第2节详细介绍了跨媒体分析领域的关键技术,包 括跨媒体统一表征、跨媒体理解与内容转换生成、跨媒体推理 与决策等;第3节介绍了跨媒体深度学习技术的应用示例,包 括视觉语言导航、跨模态检索和基于知识图谱的视觉问答系 统;第4节总结全文,分析目前跨媒体分析领域存在的主要挑 战,并对跨媒体分析与推理技术的未来发展趋势进行总结与 展望.
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“CMAR” 就可以获取《跨媒体分析与推理技术研究综述》专知下载链接