点击上方蓝字
关注我们
导读
伴随着社交网站的发展,图像、视频等社交媒体爆炸式增长,视觉理解也在许多领域引起了极大的兴趣,例如多媒体、视觉理解和模式识别。社交媒体网站上也提供了大量像用户提供的标签这样有价值的辅助资源,这对视觉理解任务是非常有帮助的。因此,许多研究者就提出了借助这些辅助资源来进行标签优化、图像检索等任务的方法。本篇【优青论坛】文章是对通过挖掘社交媒体信息来进行视觉理解现状的一个比较全面的综述,讨论其优点和局限性。然后分析视觉理解中的困难和挑战,并提出了几个研究方向。
作者简介
唐金辉,南京理工大学计算机科学与工程学院教授、博士生导师、副院长,工信部“社会安全信息感知与系统”重点实验室主任。长期从事多媒体分析与理解的研究,发表ACM/IEEE汇刊论文60余篇、CCF A类会议长文30余篇,论文被引用6800余次,获得5次多媒体国际会议最佳(学生)论文奖(包括A类会议ACM MM 2007),并获得ACM MM 2015最佳论文奖提名。入选了国家“万人计划”科技创新领军人才(2017年)和青年拔尖人才(2014年)、“长江学者奖励计划”青年学者(2015年),作为领军人才入选了江苏省“双创团队”(2016年),主持获批了国家基金重点项目(2017年)、国家优秀青年科学基金项目(2015年)、国家“973计划”青年科学家专题项目(2013年),获得了两次教育部自然科学二等奖(2014年、2015年)和2017年江苏省科学技术一等奖,目前担任IEEE TNNLS、TKDE、TCSVT等6个国际著名期刊编委。
视觉理解对多媒体应用、计算机视觉和模式识别等任务都是非常有帮助的,例如图像标注和检索。然后,手工标注是一件非常耗时耗力的工作。幸运的是,社交网站允许用户在分享图片或视频时可以对它们进行标注或评论。因此就产生了大量可以利用的与图像/视频有关的元数据,比如用户标注标签、地理标签、评论和照片信息等。探索这些辅助资源以提高视觉理解的性能是非常有必要和有意义的工作。
本文中,我们主要概述通过探索社交媒体元数据提高标签质量的视觉理解现有方法。相关的应用有视觉表示、社交图像标签改良、基于内容的社交图片检索、基于标签的社交图片检索和社交媒体摘要。
虽然目前研究者们通过挖掘社交媒体信息来研究视觉理解取得了瞩目的进展,但仍然还有很多方面需要研究。接下来我们将介绍未来可能的一些重要研究方向,包括大规模社交图片数据集、半自动的标注、面向理解的视觉表示、异质数据挖掘模型、多模态索引算法、个性化分析、基于深度学习的视觉理解。
文章精要
请长按下方二维码识别,阅读该文。
相关内容推荐:
The role of prior in image based 3D modeling: a survey
FCS优青论坛| Recent progress & trends in predictive visual analytics
“优青论坛”文章推荐:Scene Text Detection and Recognition:Recent Advances and Future Trends
“优青论坛”文章推荐:Survey of visual sentiment prediction for social media analysis
FCS「优青论坛」由主编李未院士,执行主编熊璋教授和周志华教授发起,以综述论文的形式,集中展现「NSFC 优秀青年基金」获得者对所研究领域的分析和见解,介绍最新的研究进展和成果。
Frontiers of Computer Science
Frontiers of Computer Science 是由教育部主管、高等教育出版社和德国 Springer 公司共同出版的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为李未院士,执行主编为熊璋教授和周志华教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”。
长按二维码关注Frontiers of Computer Science公众号