【学科发展报告】多媒体分析

2018 年 9 月 29 日 中国自动化学会

一、引言

多媒体分析以文本、图像、声音、视频等多种不同类型媒体的数据为研究对象，主要的研究目的一方面是使计算机具备人类的多媒体（如视、听）理解能力，另一方面是从多媒体数据中挖掘信息和知识、帮助人类更好地理解世界。

20 世纪 90 年代至 21 世纪初媒体压缩存储技术的发展和便携式数码设备的普及带来了多媒体数据的爆炸式增长。多媒体分析作为一门学科，至今将近有 30 年的历史，多媒体分析领域的标志性国际会议ACM Multimedia 自1993 年开办第一届至今已经是第25 届了。

本报告重点关注多媒体分析领域近五年来十分活跃的几个研究方向：地理多媒体分析、多媒体社会事件分析、多媒体描述生成、跨社会媒体网络分析，总结近五年国内学者在这些方向的主要研究进展，分析国内研究的特色与差距，并对未来的发展趋势进行展望。

二、我国的发展现状

（一）地理多媒体分析

地理多媒体分析的主要目的是利用带地理位置标签的多媒体内容数据，结合地理位置与内容语义理解，挖掘相关知识，以满足人们的信息服务需求。下面从基于多媒体的地理位置识别、地理多媒体知识挖掘、地理多媒体推荐三个方面进行介绍。

地标识别是典型的一种地理位置识别，主流的方法把地标识别形式化成一个分类或者检索的任务。天津大学［1］提出了一个基于图像检索的地标识别系统，使得用户输入随机采集的地标图像，系统可以自动识别该地标信息，并在地图上对检索出来的图片进行精确定位，而不依赖于人工预先标定的数据集。中科院自动化所在 2013 年［2］提出地理属性作为中层辅助特征来帮助地理位置识别。地理属性是指一个地理区域中具有判别性和代表性的元素。杭州电子科技大学［3］提出一种新颖的判别式特征选择方法和改进的特制学习机算法来进行地标识别，能够满足移动设备地标图像识别在性能上的要求。

地理位置兴趣点挖掘是一种重要的挖掘任务，其能够有效地促进地理位置旅游等应用。台湾国立暨南国际大学［4］通过挖掘众包图像挖掘出一个地理区域中的地标或者受欢迎的观光处。中科院自动化所［5］利用 Flick 上带地理位置标签的图像数据并基于区域密度的均值漂移算法挖掘出一个地理区域的兴趣点。浙江大学在基于多媒体的位置感知计算方面做了一系列工作。浙江大学对近年来关于地理标注照片挖掘的研究工作做了详细的阐述［6］，包括地理标注照片的组织、标注以及检索，基于地理标注照片的社会化语义理解，以及基于地理标注照片的旅游知识的挖掘。

推荐是一种移动场景中典型用户服务，指的是为用户推荐地理位置相关的物品服务，如景点、商品店、餐厅、线下活动等。微软亚洲研究院在参考文献［7］系统性地对近年来的基于地理位置的推荐做了综述，包括使用的数据源、推荐的方法以及推荐对象目标。南京邮电大学［8］对基于地理位置社交网络中的地理兴趣点推荐研究工作做了综述。香港大学［9］利用用户地理位置签到数据通过协同过滤的方法为用户推荐地理兴趣点。北京大学［10］在利用用户地理位置历史数据做了一系列基于地理位置的推荐研究工作。中科院自动化所［11］提出除利用用户的地理位置行为数据还利用时空场景信息并使用一个回归混合概率图模型进行建模挖掘用户兴趣、地理区域偏好和场景因素，能够为用户提供更加场景个性化的推荐服务。

（二）多媒体社会事件分析

多媒体社会事件分析技术以社会事件为研究对象，其主要目的是通过研究现有的社会事件多媒体数据，发现子事件、梳理事件的发展脉络、实时监控事件的演变动态、挖掘不同平台的事件观点等。其中多媒体社会事件的表现形式包括文本、图像、视频等网络多模态数据。下面从多媒体社会事件表示、多媒体社会事件检测、多媒体社会事件跟踪与演变分析、多媒体社会事件主题观点挖掘四个方面进行介绍。

多媒体社会事件研究强调社会事件的载体是互联网多媒体数据，与传统的单独以文本或图像进行社会事件表示的研究不同。中科院自动化所学者针对社会事件数据的跨平台多模态特性，提出非参贝叶斯的协同学习框架，通过采用共享域先验和共享模态先验的方式，实现跨平台多模态事件数据的语义层次关联［12］。北京航空航天大学提出对多媒体文档中的文本和图像内容同时建模，分析多模态的语义主题关联，并应用于跨媒体检索问题［13］。合肥工业大学的学者提出利用社会媒体的属性信息如标签、空间和时间等特征构建融合的事件特征表示，并解决缺省属性值的问题，最终通过分类性能验证了提出的特征表示的有效性［14］。

多媒体社会事件检测是指利用事件多媒体数据进行分析，进而实现发现新事件、检测不同种类的事件等任务。分类和聚类算法是社会事件分类中最常用的技术手段。在聚类算法领域，中科院计算所的学者早期做了很多研究工作［15］，分别从理论、算法和应用三个层次来讨论聚类和分类技术，全面分析了聚类和分类算法的关键技术。清华大学的学者通过利用 Max-margin 的思想将 SVM 分类器思想融合到传统主题模型中，利用新的损失函数训练模型，大大提高了主题模型在多标签分类任务的准确度［16］。

多媒体社会事件跟踪与演变分析是指对即将到来的多媒体数据进行新事件的发现和与历史事件的关联，并通过一定的可视化手段将事件时间节点上发生的子事件进行展示。哈尔滨工业大学的学者对社会事件的跟踪进行了比较深入的研究［17］，通过结合事件抽取、时序分析、数据挖掘等技术，抽取出主题事件中的关键信息，并进行时序分析。中科院自动化所的学者为应对高效地组织和监控多媒体社会事件面临的挑战，提出一种跨域的多个事件跟踪模型，利用不同域的多媒体数据协同合作提高事件的跟踪性能［18］。北京航空航天大学学者通过研究应急领域Web数据，着重解决突发事件不确定性对事件跟踪和演化的影响［19］。

多媒体社会事件主题观点挖掘是挖掘出不同组织或个人对热点社会事件的观点，也是网络舆情分析的必需技术。中科院声学所和中国移动合作，从实用性应用出发研究客户语音情感和来电意图，通过对声音数据的分析挖掘其情感类别［20］。华中科技大学学者通过研究网络突发事件舆情的发展态势和规律，将舆情演变生命周期划分为孕育、扩散、变换和衰减四个阶段，并分别对每个阶段的议题展开研究［21］。微博是互联网信息传播的重要渠道，是监控公众舆论的重要平台，北京交通大学学者以微博数据为研究对象，开发出一个基于神经网络的微博舆情趋势预测系统［22］。

（三）多媒体描述生成

多媒体描述生成研究的主要目的是对图像、视频等多媒体内容生成按照自然语言组织的描述性语句。相比多媒体内容识别与标注，用语言描述多媒体对象更为自然，且语义完整。下面围绕图像描述生成和视频描述生成两个方面进行介绍。

在图像描述生成方面，百度研究院在参考文献［23］中提出一种基于多模态循环神经网络的图像文本描述生成算法。算法模型主要由两部分构成，深度循环神经网络被用于提取句子特征，深度卷积神经网络被用于提取图像特征。清华大学的学者在参考文献［24］中研究了图像和句子之间的结构对应性。在基于已有单词生成新的单词过程中，新单词的生成是和视觉感知经验相匹配，注意力在不同视觉区域之间转移形成了一个视觉序列。微软亚洲研究院在参考文献［25］中提出一种端到端的结合属性与卷积网络以及循环神经网络的图像文本描述生成算法。为了在模型中引入属性，作者把图像和属性表示嵌入到循环神经网络中来探索两者之间的模糊共生关系。电子科技大学在参考文献［26］中提出一种结合空间保持变换和注意力机制的循环文本描述生成算法。一个可求导的空间保持变换被引入基于卷积网络的视觉编码器中。中国台湾清华大学在参考文献［27］中提出一种对抗训练过程来利用在目标域中不匹配的数据。跨邻域机制和多模态机制被引入到文本描述的生成中，邻域机制主要用于评估生成的句子是否和目标域中的句子是可区分的，多模态机制主要用于评估图像和生成句子是否是有效的配对。

在视频描述生成方面，微软亚洲研究院在参考文献［28］中提出一个视频描述数据集MSR-VTT，其中这些视频组成 20 万个视频片段和句子对。中国科技大学在参考文献［29］中提出一种融合特征嵌入和单词生成的视频描述文本生成方法。通过视觉语义嵌入空间可以更好地挖掘文本句子和视觉内容之间的语义关系。中山大学在参考文献［30］中提出一个基于视频描述生成的聊天机器人。该机器人可以对给定视频生成带有感情色彩的评论并与用户进行友好对话。在深度多视角嵌入空间，与指定视频距离最小的评论被选择作为回复被引导基于文本的用户和机器人之间的对话。电子科大在参考文献［31］中提出基于双向长短记忆网络的视频描述生成算法。联合视觉建模方法被用于对视频内容进行编码，通过前向 LSTM 和后向 LSTM 传播，以及由卷积网络得到的视觉特征。最后得到的视觉特征被用于语言模型来生成描述语句。清华大学在参考文献［32］中提出一种语义组合网络来检测视频中出现的语义概念，每个语义概念在视频中出现的概率被用于组成长短记忆模型的参数。这种方法把长短记忆模型的参数矩阵进行扩展并得到依赖于语义概念的参数矩阵。复旦大学在参考文献［33］中提出一种弱监督的稠密视频描述生成算法。这种方法可以对指定视频生成多个具有不同含义的描述语句。只采用带有句子标注的视频，这种方法就可以通过弱监督的多示例多标签学习算法得到视频区域和词汇标注之间的联系。

（四）跨社会媒体网络分析

多媒体的本义包含了多源和异构两种。传统多媒体分析的研究对象侧重异构多模态的媒体文档。自 2010 年北京大学学者提出社会媒体与多媒体结合的“社会多媒体计算”概念［34］后，多媒体的内涵和应用外延得到极大扩展，多媒体分析的研究对象也突破了异构多模态的限制。中科院自动化研究所学者将研究传统异构多模态的多媒体分析工作称为“狭义”的社会多媒体分析 , 而将同时研究多源和异构多媒体的分析工作称为“广义”的社会多媒体分析［35］。总结起来，广义社会多媒体分析主要有三个特点：一是媒体类型上不限于模态，包括各种类型的媒体数据，比如，社会链接、地理兴趣点等；二是粒度上不限于单一文档，还可以是聚合的主题或模式，比如消费模式、新闻信息流等；三是关联准则上不一定是基于语义的，很多情况下是由应用场景定义的。

这些广义的社会多媒体数据分布于不同的社会媒体网络上，可以称之为跨社会媒体网络：比如，新闻信息流来自于微博网站，多模态文档来自媒体分享网站，地理兴趣点来自签到网站。所以说，跨社会媒体网络为广义的社会多媒体分析同时提供了数据和应用平台，下面就从跨社会媒体网络关联分析和跨社会媒体网络用户建模两方面介绍广义社会多媒体分析这个方向近几年的发展。

如同多模态分析中研究不同模态数据之间的关联一样 , 研究不同社会媒体网络中典型数据的关联也是跨社会媒体网络分析的基础。微软亚洲研究院的学者假设社会媒体网络之间存在中间层主题空间，把社会流媒体网络Twitter上的推文信息和视频分享网络YouTube 中的视频标签信息投影到共同主题空间中进行数据关联和聚合［36］。中科院自动化研究所的学者认为不同社会媒体网络之间的关联不一定是基于语义的，通过借鉴群智感知的思想可以挖掘不同网络共同用户的协同行为来发现非语义导向的跨社会媒体网络关联［37］。香港科技大学的学者对不同社会媒体网络之间的信息传播进行了研究，发现共同用户在跨社会媒体网络信息传播中发挥了重要作用［38］。最近，中科院自动化研究所的学者提出了跨社会媒体网络搜索问题，通过分析Twitter、YouTube、Flickr三个典型网络的主题标签（hashtag）对跨社会媒体网络内容进行关联、组织和整合［39］。在项目方面，国家自然科学基金委近年来资助了多个相关的项目，包括中国科学院大学的重点项目“面向网络事件的跨平台异质媒体语义协同与挖掘索”以及中科院计算所的重点项目“跨网互联视音频关联分析与搜索”等。

在跨社会媒体网络用户建模方面，微软亚洲研究院的学者与心理学家和社会学家合作，分析了微博、豆瓣、大众点评上用户的行为模式，为跨社会媒体网络的共同用户构建了行为图谱，可作为群体层面的用户模型［40］。山东大学的学者与新加坡国立大学合作，提出从多个社交媒体网络同时抽取共同用户的地理位置特征、文本特征以及视觉特征组合成用户的高维特征表示，然后利用该集成的用户特征表示进行用户属性推断［41］。清华大学的学者提出一种半监督迁移学习的方法，用于推断共同用户的跨社会媒体网络兴趣［42］。中科院自动化研究所承担了国家自然科学基金委的重点项目“大数据环境下复杂多媒体的处理、推送与展示”，其中推送部分的核心问题就是跨社会媒体网络用户建模。中科院自动化研究所的学者在这方面做了一系列工作，如研究好友关系在不同社会媒体网络中的差异性和一致性［43］、基于事件的跨社会媒体网络实时视频推荐［44］、考虑跨社会媒体网络知识鸿沟和意图鸿沟的统一用户建模［45］、整合跨社会媒体网络同模态行为和异构社会关系等［46］。

三、国内外发展比较

国内在地理多媒体分析方面起步早、成果高。如微软亚洲研究院在地理多媒体推荐与城市计算方面做了一系列开创性的工作。北京大学在基于用户地理位置行为轨迹进行推荐方面做了较为全面的研究工作。中科院自动化所对地理多媒体做了系统性的研究工作包括地理多媒体的地理位置识别、地理多媒体知识挖掘以及推荐等，获得了 MMM 2013 最佳学生论文奖，ACM Multimedia 2013 的最佳论文提名和 IEEE Multimedia 2017 最佳论文奖。

国内在多媒体社会事件分析领域虽然起步较晚，但在国家科技部和自然科学基金委对相关研究项目的大力支持和各大高校以及各大机构学者的努力下，取得了良好的研究成果。如中科院自动化研究所在这一方向的工作获得了 2016 年国际多媒体会议和 ACM Transactions on Multimedia Computing，Communications，and Applications 最佳论文奖。国外学者在社会事件表示、大规模数据分析处理等研究方向有许多创新和值得借鉴学习的地方。首先，随着可穿戴设备（如智能眼镜等）和监控设备的普及，越来越多的实际场景的社会媒体数据可被用于社会事件分析，因此研究实用性更强的社会事件分析系统需要被提上日程。其次，当今计算机硬件的性能增长速度不能满足多媒体数据的增长速度，在利用大规模多媒体数据的同时，不能忽视社会媒体数据的冗余和噪声，设计良好的数据过滤算法是提高数据质量、减轻计算负荷的重点。最后，多媒体社会事件分析的研究不仅仅是局限于单领域的研究，必须结合语言学、社会学、计算机科学等多领域知识，只有如此才能开发切合实际的社会事件分析系统，为国家政治经济决策、社会舆论监控提供有价值的指导。

随着深度学习在计算机视觉和自然语言处理等领域取得突破性进展，一部分传统任务都达到了工业应用的技术水平，例如，分类和检测等计算机视觉中的经典问题。近年来国际上越来越多的人工智能领域的研究组将研究重点转向了更有挑战性的多媒体描述生成。国内对这方面的研究起步较晚，但发展迅速。已经有一些高校和科研院所取得了丰硕的研究成果。如微软亚洲研究院公布了视频描述生成数据集 MSR-VTT 并举办视频描述生成国际竞赛，极大地推动了这一领域的发展。中科大在视频描述生成领域提出了融合特征嵌入和句子生成的模型，有效地改进了方法性能。电子科大的学者在基于注意力机制的描述生成算法方面展开深入研究并发表了多篇国际顶级会议和期刊。我们看到，国外学者在基础问题和理论方法上的研究，有许多值得借鉴的地方。首先，完善多媒体描述生成的问题链，如关注视觉内容与生成单词的对应性研究；其次，扩展多媒体描述生成的应用领域，如将视频描述生成算法应用到机器人导航项目中；最后，加强与工业界的沟通与合作，从工业界获得真实数据和一手应用问题。

国内在跨社会媒体网络分析方面起步较早，具有良好的研究基础。国家科技部和自然科学基金委对相关研究项目给予了大力支持，已经取得了很多可喜的研究成果。如中科院自动化研究所在跨社会媒体网络统一用户建模方面的工作获得了 2015 年国际多媒体检索会议唯一的最佳学生论文。然而，我们也需要看到，国外学者在基础问题、多媒体应用和理论方法上的研究有许多值得借鉴和注意的地方。首先，是完善跨社会媒体网络分析研究的问题链，如关注对共同用户关联推断的研究；其次，是扩展跨社会媒体网络分析的应用领域，如在互联网信息服务之外推广到医疗或者金融信息服务中；最后，应加强与工业界的沟通与合作，从工业界获得真实数据和一手应用问题。

四、我国发展趋势与对策

在地理多媒体分析方面，地理多媒体连接着物理空间与网络空间，是重要的研究对象，能够促进提升基于地理位置的用户服务体验。从研究对象看，地理多媒体将存在于各种形式的互联网服务中，来源形式不同，使得地理多媒体与其他各种类型信息的数据共生成一体，因此如何合理利用这些异质多源的地理多媒体数据进行知识挖掘，为用户提供之更加智能化的服务体验，成为地理多媒体研究的核心问题。从研究方法来，传统的浅层模型，包括启发式方法再到概率图模型是近年的深度学习方法成为研究算法发展的一种趋势，另外多学科交叉融合以及应用需求导向和理论框架的探索成为研究另一方面的重要方向。

在多媒体社会事件分析方面，研究趋势是如何针对大数据难以训练的挑战提出新的方法，或者是改进现有的方法使之适应大规模数据集。另外，现实世界发生的事件在网络空间中也会有相应的数据呈现。物理空间和网络空间中的事件往往是相互依存、相互补充的。目前大多数事件关联分析研究都是基于网络空间数据，忽略了网络空间和物理空间事件的一致性和关联性。因此，利用二元空间数据的互补性和共生性，解决社会热点事件的协同关联分析等问题是值得我们深入研究的问题。但是二元空间事件关联分析面临一些难题，如多源空间数据异构，物理空间和网络空间数据分别具有多模态性，二元空间数据不同步等问题。如何解决这些难题，综合二元空间的数据进行联合建模实现社会事件关联分析还没有受到研究者足够的重视。

在多媒体描述生成方面，目前大部分已有的图像和视频文本描述生成算法都是数据驱动的，其性能依赖于大量有标记的训练样本。在多媒体大数据背景下，数据驱动的多媒体描述生成很难满足大量未标记样本的内容分析与理解，亟需更加智能的描述生成技术。我们也需要学习和保存更多的知识来辅助计算机对视觉内容的理解和分析。如何利用大量的外部知识来分析图像和视频内容，将是接下来的研究热点与难点。知识驱动的文本描述生成可以作为数据驱动的描述生成方法的有效补充，为解决无监督视觉理解和语义鸿沟等问题提供新的思路。

在跨社会媒体网络分析方面，相关研究已经从关注宏观层面上的网络结构向个体层面的微观分析转移，比如，分析共同用户在不同社会媒体网络中发布内容和呈现兴趣上的差异性。从未来的发展趋势看，由于跨社会媒体网络分析是一个相对较新的研究方向，相关研究刚刚起步，未来几年预计会有更多工作投入到如下两个方面：①深层分析跨社会媒体网络现象和规律，如微观用户个体和中观事件主题在不同社会媒体网络中的迁移 / 传播特性以及彼此之间的关联；②探索跨社会媒体网络分析的新应用场景，如在围绕用户进行信息整合和用户建模之外，直接对跨社会媒体网络内容本身进行整合和设计应用。

五、结束语

报告围绕地理多媒体分析、多媒体社会事件分析、多媒体描述生成、跨社会媒体网络分析四个方面，介绍国内近五年来在多媒体分析领域的主要研究进展，分析国际学科发展趋势及国内的研究特色与差距。总的来说，近年来国内科研机构和企业在多媒体分析研究方面取得了一系列达到国际领先水平的成果，但在移动互联网、大数据、社会媒体的背景下，需要在应用拓展、经典问题创新和基础理论方面进一步加强，并注重与跨学科交叉领域的融合。

参考文献

［1］宋小璇，刘敬浩，唐小容 . 基于图像检索的地标识别系统［J］．电子设计工程，2012，20（12）：173-175.

［2］ Fang Q，Sang J，and Xu C. GIANT：Geo-informative Attributes for Location Recognition and Exploration［C］// Proceedings of the 21st ACM international conference on Multimedia. ACM，2013：13-22.

［3］ Cao J，Chen T and Fan J. Landmark Recognition with Compact BoW Histogram and Ensemble ELM［J］．Multimedia Tools and Applications，2016，75：2839-2857.

［4］ Liu Y H，Lin S H，Lai C K，et al. Mining Crowdsourcing Photos for Recognizing Landmark Areas［C］// International Conference on Innovative Mobile and Internet Services in Ubiquitous Computing，2016：12-19.

［5］ Sang J，Fang Q，and Xu C. Exploiting Social-Mobile Information for Location Visualization［J］．ACM Trans.

Intell. Syst. Technol. 2017，8（3）：Article 39.

［6］徐振兴，陈岭 . 地理照片标注挖掘［J］．中国计算机学会通信，2014，5（10）：31-36.

［7］ Bao J，Zheng Y，Wilkie D，and Mokbel M. Recommendations in location-based social networks：a survey［J］． GeoInformatica，2015，19（3）：525-565.

［8］ Yu Y，and Chen X. A survey of point-of-interest recommendation in location-based social networks［C］// In Workshops at the Twenty-Ninth AAAI Conference on Artificial Intelligence. 2015：231-240.

［9］ Wang H，Terrovitis M，and Mamoulis N. Location recommendation in location-based social networks using user check-in data［C］// Proceedings of the 21st ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. ACM，2013：374-383.

［10］ Sun Y，Ren X，Yin Y. Content-rich recommendation：Integrating Network，Text and Spatial-Temporal Dimensions［C］// Proceedings of ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining，2017： 18-29.

［11］ Fang Q，Xu C，Hossain M S，Muhammad G. STCAPLRS：A Spatial-Temporal Context-Aware Personalized Location Recommendation System［J］．ACM TIST，2016，7（4）：1-59.

［12］ Qian S，Zhang T，Hong R，Xu C. Cross-Domain Collaborative Learning in Social Multimedia［C］// ACM Multimedia，2015：99-108.

［13］ Yu J，Cong Y，Qin Z，Wan T . Cross-modal topic correlations for multimedia retrieval［C］// Proceedings of IEEE conference on Pattern Recognition，2012：246-249.

［14］ Liu X，Huet B. Heterogeneous features and model selection for event-based media classification［C］// ACM International Conference on Multimedia Retrieval，2013：151-158.

［15］卜东波 . 聚类 / 分类理论研究及其在文本挖掘中的应用［D］．中国科学院计算技术研究所博士学位论文， 2000.

［16］ Zhu J，Chen N，Perkins H，et al. Gibbs Max-margin Topic Models with Data Augmentation［J］．Journal of Machine Learning Research，2014，15（1）：1073-1110.

［17］李风环 . 主题事件挖掘及动态演化分析研究［D］．哈尔滨工业大学博士学位论文，2015.

［18］ Zhang T，Xu C. Cross-Domain Multi-Event Tracking via CO-PMHT［J］．ACM Transactions on Multimedia Computing，Communications，and Applications（TOMM），2014，10（4）：31.

［19］ Wu Q，Lv J，Ma S，et al. EET：Efficient event tracking over emergency-oriented web data［C］// International Joint Conference on Neural Networks，2015：1-8.

［20］ Li，P. Customer voice sensor：A comprehensive opinion mining system for call center conversation. IEEE International Conference on Cloud Computing and Big Data Analysis，IEEE，2016：324-329.

［21］方付建 . 突发事件网络舆情演变研究［D］．华中科技大学博士学位论文，2011.

［22］ Chen N Y，Liu Y，Zhang Z J. A Forecasting System of Micro-blog Public Opinion Based on Artificial Neural Network［C］// Tenth International Conference on Intelligent Information Hiding and Multimedia Signal Processing， IEEE，2014：999-1004.

［23］ Mao J，Xu W，Yang Y，et al. Deep Captioning with Multimodal Recurrent Neural Networks（m-RNN）［C］// International Conference on Learning Representations，2015：18-25.

［24］ Fu K，Jin J，Cui R，et al. Aligning where to see and what to tell：image captioning with region-based attention and scene-specific contexts［J］．IEEE Transactions on Pattern Analysis and Machine Intelligence，2016：29-35.

［25］ Yao T，Pan Y，Li Y，et al. Boosting Image Captioning with Attributes. CoRR abs/1611.01646，2016.

［26］ Liu H，Yang Y，Shen F，et al. Recurrent Image Captioner：Describing Images with Spatial-Invariant Transformation and Attention Filtering. CoRR abs/1612.04949，2016.

［27］ Chen T H，Liao Y H，Chuang C Y，et al. Adapt and Tell：Adversarial Training of Cross-domain Image Captioner.

CoRR abs/1705.00930，2017.

［28］ Xu J，Mei T，Yao T，et al. MSR-VTT：A Large Video Description Dataset for Bridging Video and Language［C］// IEEE International Conference on Conference on Computer Vision and Pattern Recognition，2016：5288-5296.

［29］ Pan Y，Mei T，Yao T，et al. Jointly Modeling Embedding and Translation to Bridge Video and Language［C］// IEEE International Conference on Computer Vision and Pattern Recognition，2016：4594-4602.

［30］ Li Y，Yao T，Hu R，et al. Video ChatBot：Triggering Live Social Interactions by Automatic Video Commenting［C］// ACM Multimedia，2016：757-758.

［31］ Bin Y，Yang Y，Shen F，et al. Bidirectional Long-Short Term Memory for Video Description［C］// ACM Multimedia，2016：436-440.

［32］ Gan Z，Gan C，He X，et al. Semantic Compositional Networks for Visual Captioning. CoRR abs/1611.08002， 2016.

［33］ Shen Z，Li J，Su Z，et al. Weakly Supervised Dense Video Captioning［C］// IEEE International Conference on Computer Vision and Pattern Recognition，2017：234-241.

［34］ Tian Y H，Srivastava J，Huang T，et al. Contractor：Social Multimedia Computing［J］．IEEE Computer，2016，4（3 8）： 27-36.

［35］ Sang J，Xu C，Jain R. Social Multimedia Ming：From Special to General［C］//Multimedia（ISM），2016 IEEE International Symposium on. IEEE，2016：481-485.

［36］ Roy S. D，Mei T，Zeng W. Bridging Human-Centered Social Media Content Across Web Domains［C］// Human-Centered Social Media Analytics，2014：3-19.

［37］ Yan M，Sang J，Xu C. Mining Cross-network Association for YouTube Video Promotion［C］// ACM Multimedia， 2014：557-566.

［38］ Zhong E，Fan W，Zhu Y，et al. Modeling the dynamics of composite social networks［C］// Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM，2013：937-945.

［39］ Gao Y，Sang J，Ren T，et al. Hashtag-centric Immersive Search on Social Media［C］// ACM Multimedia，2017： 19-27.

［40］ Yuan N J，Zhang F，Lian D，et al. We know how you live：exploring the spectrum of urban lifestyles［C］// Proceedings of the first ACM conference on Online social networks. ACM，2013：3-14.

［41］ Farseev A，Nie L，Akbari M，et al. Harvesting Multiple Sources for User Profile Learning：a Big Data Study［C］// ACM International Conference on Multimedia Retrieval，2015：235-242.

［42］ Jiang M，Cui P，Yuan N J，et al. Little Is Much：Bridging Cross-Platform Behaviors through Overlapped Crowds［C］// AAAI Conference on Artificial Intelligence，2016：13-19.

［43］ Yan M，Sang J，Mei T，et al. Friend transfer：Cold-start friend recommendation with cross-platform transfer learning of social knowledge［C］// Multimedia and Expo（ICME），2013 IEEE International Conference on. IEEE， 2013：1-6.

［44］ Deng Z，Yan M，Sang J，et al. Twitter is Faster：Personalized Time-Aware Video Recommendation from Twitter to YouTube［J］． ACM Transactions on Multimedia Computing，Communications，and Applications（TOMM）， 2015，11（2）：31.

［45］ Yan M，Sang J，Xu C. Unified YouTube Video Recommendation via Cross-network Collaboration［C］// Proceedings of the 5th ACM on International Conference on Multimedia Retrieval. ACM，2015：19-26.

［46］ Sang J，Deng Z，Lu D，et al. Cross-OSN User Modeling by Homogeneous Behavior Quantification and Local Social Regularization［J］．IEEE Trans. Multimedia 17（12）：2259-2270（2015）.

来源：中国自动化学会

往期文章推荐