摘要 近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文献进行介绍和总结。最后,该文给出了几个未来的重点研究方向,包括跨视觉和语言模态的特征对齐、自动化评价指标的设计以及多样化图像描述生成。

http://jcip.cipsc.org.cn/CN/abstract/abstract2995.shtml

成为VIP会员查看完整内容
0
38

相关内容

图像描述生成(Image Caption)是一个融合计算机视觉、自然语言处理和机器学习的综合问题,它类似于翻译一副图片为一段描述文字。该任务对于人类来说非常容易,但是对于机器却非常具有挑战性,它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。除此之外,模型还需要能够抓住图像的语义信息,并且生成人类可读的句子。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

视频标题生成与描述是使用自然语言对视频进行总结与重新表达. 由于视频与语言之间存在异构特性, 其数据处理过程较为复杂. 本文主要对基于“编码-解码”架构的模型做了详细阐述, 以视频特征编码与使用方式为依据, 将其分为基于视觉特征均值/最大值的方法、基于视频序列记忆建模的方法、基于三维卷积特征的方法及混合方法, 并对各类模型进行了归纳与总结. 最后, 对当前存在的问题及可能趋势进行了总结与展望, 指出需要生成融合情感、逻辑等信息的结构化语段, 并在模型优化、数据集构建、评价指标等方面进行更为深入的研究.

成为VIP会员查看完整内容
0
26

摘要: Web 2.0时代,消费者在在线购物、学习和娱乐时越来越多地依赖在线评论信息,而虚假的评论会误导消费者的决策,影响商家的真实信用,因此有效识别虚假评论具有重要意义。文中首先对虚假评论的范围进行了界定,并从虚假评论识别、形成动机、对消费者的影响以及治理策略4个方面归纳了虚假评论的研究内容,给出了虚假评论研究框架和一般识别方法的工作流程。然后从评论文本内容和评论者及其群组行为两个角度,对近十年来国内外的相关研究成果进行了综述,介绍了虚假评论效果评估的相关数据集和评价指标,统计分析了在公开数据集上实现的虚假评论有效识别方法,并从特征选取、模型方法、训练数据集、评价指标值等方面进行了对比分析。最后对虚假评论识别领域的有标注语料规模限制等未来研究方向进行了探讨。

成为VIP会员查看完整内容
0
36

在计算机视觉领域中,语义分割是场景解析和行为识别的关键任务,基于深度卷积神经网络的图像语义分割方法已经取得突破性进展。语义分割的任务是对图像中的每一个像素分配所属的类别标签,属于像素级的图像理解。目标检测仅定位目标的边界框,而语义分割需要分割出图像中的目标。本文首先分析和描述了语义分割领域存在的困难和挑战,介绍了语义分割算法性能评价的常用数据集和客观评测指标。然后,归纳和总结了现阶段主流的基于深度卷积神经网络的图像语义分割方法的国内外研究现状,依据网络训练是否需要像素级的标注图像,将现有方法分为基于监督学习的语义分割和基于弱监督学习的语义分割两类,详细阐述并分析这两类方法各自的优势和不足。本文在PASCAL VOC(pattern analysis, statistical modelling and computational learning visual object classes)2012数据集上比较了部分监督学习和弱监督学习的语义分割模型,并给出了监督学习模型和弱监督学习模型中的最优方法,以及对应的MIoU(mean intersection-over-union)。最后,指出了图像语义分割领域未来可能的热点方向。

http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20200601&flag=1

成为VIP会员查看完整内容
0
40

http://cea.ceaj.org/CN/abstract/abstract39198.shtml

近年来,深度学习技术被广泛应用于各个领域,基于深度学习的预处理模型将自然语言处理带入一个新时代。预训练模型的目标是如何使预训练好的模型处于良好的初始状态,在下游任务中达到更好的性能表现。对预训练技术及其发展历史进行介绍,并按照模型特点划分为基于概率统计的传统模型和基于深度学习的新式模型进行综述;简要分析传统预训练模型的特点及局限性,重点介绍基于深度学习的预训练模型,并针对它们在下游任务的表现进行对比评估;梳理出具有启发意义的新式预训练模型,简述这些模型的改进机制以及在下游任务中取得的性能提升;总结目前预训练的模型所面临的问题,并对后续发展趋势进行展望。

成为VIP会员查看完整内容
0
67

我们生活在一个由大量不同模态内容构建而成的多媒体世界中,不同模态信息之间具有高度的相关性和互补性,多模态表征学习的主要目的就是挖掘出不同模态之间的共性和特性,产生出可以表示多模态信息的隐含向量.该文章主要介绍了目前应用较广的视觉语言表征的相应研究工作,包括传统的基于相似性模型的研究方法和目前主流的基于语言模型的预训练的方法.目前比较好的思路和解决方案是将视觉特征语义化然后与文本特征通过一个强大的特征抽取器产生出表征,其中Transformer[1]作为主要的特征抽取器被应用表征学习的各类任务中.文章分别从研究背景、不同研究方法的划分、测评方法、未来发展趋势等几个不同角度进行阐述.

http://www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6125&flag=1

成为VIP会员查看完整内容
0
80

摘要:近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文献进行介绍和总结。最后,该文给出了几个未来的重点研究方向,包括跨视觉和语言模态的特征对齐、自动化评价指标的设计以及多样化图像描述生成。

http://jcip.cipsc.org.cn/CN/abstract/abstract2995.shtml

成为VIP会员查看完整内容
0
55

行人再识别的主要任务是利用计算机视觉对特定行人进行跨视域匹配和检索。相比于传统算法,由数据驱 动的深度学习方法所提取的特征更能表征行人之间的区分性。对行人再识别的背景及研究历史、主要面临的挑 战、主要方法、数据集及评价指标进行了梳理和总结。主要从特征表达、局部特征、生成对抗网络三个方面对行人 再识别的算法进行分析,列举了行人再识别9个常用数据集、3个评价标准和14种典型方法在 Market1501数据集 上取得的准确率,最后对行人再识别的未来研究方向进行展望。

成为VIP会员查看完整内容
0
24

摘要: 在自然语言处理领域,信息抽取一直以来受到人们的关注.信息抽取主要包括3项子任务:实体抽取、关系抽取和事件抽取,而关系抽取是信息抽取领域的核心任务和重要环节.实体关系抽取的主要目标是从自然语言文本中识别并判定实体对之间存在的特定关系,这为智能检索、语义分析等提供了基础支持,有助于提高搜索效率,促进知识库的自动构建.综合阐述了实体关系抽取的发展历史,介绍了常用的中文和英文关系抽取工具和评价体系.主要从4个方面展开介绍了实体关系抽取方法,包括:早期的传统关系抽取方法、基于传统机器学习、基于深度学习和基于开放领域的关系抽取方法,总结了在不同历史阶段的主流研究方法以及相应的代表性成果,并对各种实体关系抽取技术进行对比分析.最后,对实体关系抽取的未来重点研究内容和发展趋势进行了总结和展望.

http://crad.ict.ac.cn/CN/10.7544/issn1000-1239.2020.20190358#1

成为VIP会员查看完整内容
0
105

摘要: 三维重建在视觉方面具有很高的研究价值, 在机器人视觉导航、智能车环境感知系统以及虚拟现实中被广泛应用.本文对近年来国内外基于视觉的三维重建方法的研究工作进行了总结和分析, 主要介绍了基于主动视觉下的激光扫描法、结构光法、阴影法以及TOF (Time of flight)技术、雷达技术、Kinect技术和被动视觉下的单目视觉、双目视觉、多目视觉以及其他被动视觉法的三维重建技术, 并比较和分析这些方法的优点和不足.最后对三维重建的未来发展作了几点展望。

成为VIP会员查看完整内容
0
65

摘要: 图像内容自动描述是计算机视觉和自然语言处理领域的一个重要任务,在生活娱乐、智慧 交通以及帮助视觉障碍者理解视觉内容等领域有着广泛而重要的应用价值.相比于图像分类和目标 检测等感知任务,图像内容自动描述是一种更高级别、更复杂的认知任务,对帮助分析和理解图像有 着重要的意义.旨在对现有的图像自动描述技术进行全面的综述.讨论图像内容自动描述中常用的数 据集和评价指标,以及现有图像自动描述技术的性能、优点和局限性。

关键词: 图像内容描述;卷积神经网络;循环神经网络;注意力机制;深度学习

成为VIP会员查看完整内容
0
61
小贴士
相关VIP内容
专知会员服务
36+阅读 · 1月19日
专知会员服务
40+阅读 · 1月7日
专知会员服务
67+阅读 · 2020年12月9日
专知会员服务
80+阅读 · 2020年12月3日
专知会员服务
24+阅读 · 2020年8月19日
专知会员服务
105+阅读 · 2020年7月19日
专知会员服务
65+阅读 · 2020年5月1日
 图像内容自动描述技术综述
专知会员服务
61+阅读 · 2019年11月17日
相关资讯
领域知识图谱研究综述
专知
9+阅读 · 2020年8月2日
【综述】生成式对抗网络GAN最新进展综述
专知
46+阅读 · 2019年6月5日
无参考图像质量评价研究进展综述
人工智能前沿讲习班
41+阅读 · 2019年2月15日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
22+阅读 · 2018年12月4日
相关论文
Generative Adversarial Networks in Computer Vision: A Survey and Taxonomy
Zhengwei Wang,Qi She,Tomas E. Ward
33+阅读 · 2020年12月21日
Xiuying Chen,Zhi Cui,Jiayi Zhang,Chen Wei,Jianwei Cui,Bin Wang,Dongyan Zhao,Rui Yan
9+阅读 · 2020年12月14日
Generating Fact Checking Explanations
Pepa Atanasova,Jakob Grue Simonsen,Christina Lioma,Isabelle Augenstein
8+阅读 · 2020年4月13日
LayoutLM: Pre-training of Text and Layout for Document Image Understanding
Yiheng Xu,Minghao Li,Lei Cui,Shaohan Huang,Furu Wei,Ming Zhou
10+阅读 · 2020年2月19日
Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation
Risto Vuorio,Shao-Hua Sun,Hexiang Hu,Joseph J. Lim
22+阅读 · 2019年10月30日
Kamran Kowsari,Kiana Jafari Meimandi,Mojtaba Heidarysafa,Sanjana Mendu,Laura E. Barnes,Donald E. Brown
3+阅读 · 2019年4月25日
Igor Melnyk,Tom Sercu,Pierre L. Dognin,Jarret Ross,Youssef Mroueh
6+阅读 · 2018年4月30日
Revisiting Oxford and Paris: Large-Scale Image Retrieval Benchmarking
Filip Radenović,Ahmet Iscen,Giorgos Tolias,Yannis Avrithis,Ondřej Chum
10+阅读 · 2018年3月29日
Wei He,Kai Liu,Yajuan Lyu,Shiqi Zhao,Xinyan Xiao,Yuan Liu,Yizhong Wang,Hua Wu,Qiaoqiao She,Xuan Liu,Tian Wu,Haifeng Wang
3+阅读 · 2017年11月15日
Top