【ACMMM2018首尔盛宴】多媒体领域顶会各大奖项出炉!微软亚研斩获最佳论文!NUS360获最佳学生论文!

【导读】第26届ACM国际多媒体会议(ACM International Conference on Multimedia, 简称ACM MM)于2018年10月22日至26日在韩国首尔隆重举行。自1993年首次召开以来,ACMMM每年召开一次,已经成为多媒体领域顶级会议,也是中国计算机学会推荐的A类国际学术。会议热门方向有大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像等等。就在昨天,包括最佳论文,最佳学生论文,最佳demo, 最佳开源软件在内的所有多媒体领域大奖都已出炉。



本次会议,共收到来自25个国家的757篇文章,最终录用209篇(录用率27.6%)

从图中可知,Multimedia and Vision, Deep learning for multimedia 是投稿人数最多的领域。Multimedia Analysis and Description,Multimedia search and Recommend紧随其后。


这是此次参会的不同机构的人数统计,能够看到国内北京大学、清华大学、中科大、中科院自动化研究所等都排在前列。


- Best Paper Award -


  • 论文:Beyond Narrative Description: Generating Poetry from Images by Multi-Adversarial Training

  • 作者:Bei Liu, Jianlong Fu, Makoto P. Kato, Masatoshi Yoshikawa

  • 论文地址:https://dl.acm.org/citation.cfm?id=3240587

  • 摘要:看图说话引起了人们的广泛关注。在本文中,我们进一步探索了看图说话,尝试进行看图写诗(多行)。这一任务,涉及到多种挑战,包括从图像中发现诗歌的线索(比如绿色代表希望),以及从自然语言层层面生成与图片有相关性且充满诗意的诗歌。为解决上述问题,我们通过政策梯度进行多对抗性训练,将诗歌生成任务分解为两个相关联的子任务,从而保证诗歌的跨模态关联性和诗歌语言风格。为了从图像中提取诗歌线索,我们提出了一种学习深度耦合视觉诗歌embedding的方法,其中诗歌表示物体或情感,图像中的场景可以共同学习。为了指导诗歌生成,我们进一步提出了多媒体判别器和诗歌风格判别器...

现场相关报告

- Best Student Paper Award -



  • 论文:Understanding Humans in Crowded Scenes: Deep Nested Adversarial Learning and A New Benchmark for Multi-Human Parsing

  • 作者:Jian Zhao, Jianshu Li, Yu Cheng, Terence Sim, Shuicheng Yan, Jiashi Feng

  • 论文地址:https://dl.acm.org/citation.cfm?id=3240509

  • 摘要:尽管在检测、实例分割、人解析等感知任务上取得了显著的进展,但在群体行为分析、人再识别、自主驾驶等拥挤场景中,计算机对人的视觉理解仍不尽人意。为此,模型需要综合感知多人类图像中的语义信息和实例间的差异,最近这一问题也被定义为多人类解析任务。本文提出了一种用于算法开发和评估的大型数据库“多人工解析(Multi-Human parse, MHP)”,并提出了在拥挤场景中理解人类的最新技术。


现场相关报告


- Best Demo Award -



  • 论文:AniDance: Real-Time Dance Motion Synthesize to Song

  • 作者:Taoran Tang, Hanyang Mao, Jia Jia

  • 论文地址:https://dl.acm.org/citation.cfm?id=3241388

  • 摘要:在本文中,我们提供了一个名为AniDance的演示程序,可以实时地将舞蹈动作与旋律合成。当用户唱一首歌或在手机上播放一首AniDance的时候,他们的旋律会带动3D-space角色跳舞,创造出活泼的舞蹈动画。在实践中,我们通过捕捉真实的舞蹈表演,利用LSTM-autoencoder来识别音乐与舞蹈的关系,进行面向音乐的3d -空间舞蹈动作数据集。基于这些技术,用户可以创建有效的具有音乐表达能力的编舞,从而提高他们的学习能力和对舞蹈和音乐的兴趣。

  • 论文:Meet AR-bot: Meeting Anywhere, Anytime with Movable Spatial AR Robot

  • 作者:Yoon Jung Park, Yoonsik Yang, Hyocheol Ro, JungHyun Byun, Seougho Chae, Tack Don Han

  • 论文地址:https://dl.acm.org/citation.cfm?id=3241390

  • 摘要:开会时需要做许多准备工作。例如投影机、笔记本电脑、线缆等,本视频基于增强现实(AR)的投影,构建了开会AR-bot,帮助用户保持会议顺利进行。我们的系统可以很容易地提供会议室环境通过移动设置通过轮基支架。用户不需要携带个人笔记本电脑和投影仪连接。机器人通过泛倾系统重构三维几何信息,计算投影面积,在空间中投影信息。用户还可以通过移动设备进行控制。通过移动设备,我们提供展示,表格交互,文件共享和虚拟对象注册等功能。


- Best Open Source Software Competition Award -


  • 论文:Vivid: Virtual Environment for Visual Deep Learning

  • 作者:Kuan-Ting Lai, Chia-Chih Lin, Chun-Yao Kang, Mei-Enn Liao, Ming-Syan Chen

  • 论文地址:https://dl.acm.org/citation.cfm?id=3243653

  • 摘要:由于深度强化学习的不断发展和大数据量训练的需要,虚拟到现实的学习成为计算机视觉学界关注的焦点。由于最先进的3D引擎可以生成适用于深度神经网络训练的逼真图像,研究人员已经逐渐应用3D虚拟环境来学习包括自主驾驶、避碰、图像分割等不同任务。尽管已经有许多开放源码的模拟环境可供使用,但它们中的大多数要么提供小场景,要么与环境中的对象交互有限。为了方便视觉识别学习,我们提供了一个新的视觉深度学习(生动的)虚拟环境,提供了大规模的多样化的室内外场景。此外,VIVID利用了先进的人类骨骼系统,使我们能够模拟许多复杂的人类动作。VIVID拥有广泛的应用,可以用于学习室内导航、动作识别、事件检测等。我们还发布了一些Python的深度学习示例,以展示系统的功能和优势。

  • 论文:A General-Purpose Distributed Programming System using Data-Parallel Streams

  • 作者: Tsung-Wei Huang, Chun-Xun Lin, Guannan Guo, Martin D.F. Wong

  • 论文地址:https://dl.acm.org/citation.cfm?id=3243654

  • 摘要:本文介绍一种分布式执行引擎DtCraft,用户简化集群计算。应用程序在一组数据并行流中进行描述,留下了由系统内核透明处理的难以执行的细节和并发控制。与现有系统相比,DtCraft在(1)使用现代c++ 17的高效面向流的编程范式、(2)基于Linux容器技术的上下文内资源控制器和任务执行器、(3)从原型机开发到生产云环境的易用性方面独树一帜。这些功能为工业应用提供动力,并在机器学习、流处理和分布式多媒体系统中创建新的研究方向。


- ACM TOMM 2018 Best Paper Award -


  • 论文:Learning from Collective Intelligence: Feature Learning using Social Image and Tags

  • 作者:Hanwang Zhang, Xindi Shang, Huanbo Luan, Meng Wang, Tat-Seng Chua.

  • 论文地址:https://dl.acm.org/citation.cfm?id=2978656

  • 摘要:视觉内容的特征表示是许多基础应用(如注释和跨模态检索)进展的关键。尽管最近在深度特征学习方面的进展为实现这些任务提供了一种很有前途的途径,但是在获取高质量和大规模训练数据代价高昂的应用领域,这些进展是有限的。在本文中,我们提出了一种基于社会集体智慧的新颖的深度特征学习范式,这种学习范式可以从网络上取之不尽用之不竭的社会多媒体内容,尤其是大量的社会图像和标签中获得。与现有的依赖高质量图像标签监控的特征学习方法不同,我们的弱监控是通过挖掘来自嘈杂、稀疏和多样化的社会图像集合的视觉语义嵌入而获得的。由此产生的图像-词嵌入空间可用于(1)对底层特征提取的深度视觉模型进行微调,(2)为图像和文本寻找高阶交叉模态特征的稀疏表示。我们为所提议的范例提供了一个易于使用的实现,它快速且兼容于任何最先进的深度架构。在几个基准上的广泛实验表明,我们的范例所学习到的跨模态特性在各种应用程序(如基于内容的检索、分类和图像字幕)中明显优于其他特性


- 专知的工作 -


专知团队,是来自中科院自动化研究所的多媒体计算团队,此次ACM MM 2018,专知团队有三篇投稿被收录(两篇Oral,一篇Poster),分别是 :


1. 黄晓雯博士上下文感知自注意力网络的用户序列推荐建模

  • 论文:CSAN: Contextual Self-Attention Network for User Sequential Recommendation 

  • 作者: Xiaowen Huang, Shengsheng Qian, Quan Fang, Jitao Sang, Changsheng Xu

  • 论文地址:https://dl.acm.org/citation.cfm?id=3240609

图为黄晓雯博士在作口头报告


2. 胡骏博士基于注意力和交互机制卷积匹配模型的社交多媒体中的社区问答。

  • 论文:Attentive Interactive Convolutional Matching for Community Question Answering in Social Multimedia 

  • 作者:Jun Hu, Shengsheng Qian, Quan Fang, Changsheng Xu

  • 论文地址:https://dl.acm.org/citation.cfm?id=3240626

图为胡骏博士在作口头报告


2. 张怀文博士基于变分深度图嵌入和聚类的多模态知识库构建。

  • 论文:Learning Multimodal Taxonomy via Variational Deep Graph Embedding and Clustering

  • 作者:Huaiwen Zhang , Quan Fang , Shengsheng Qian, Changsheng Xu

  • 论文地址:https://dl.acm.org/citation.cfm?id=3240586

图为张怀文博士在作海报展示


- 其他花絮 -





-END-

专 · 知


人工智能领域26个主题知识资料全集获取与加入专知人工智能服务群: 欢迎微信扫一扫加入专知人工智能知识星球群,获取专业知识教程视频资料和与专家交流咨询!


请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料!


请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~

 AI 项目技术 & 商务合作:bd@zhuanzhi.ai, 或扫描上面二维码联系!

请关注专知公众号,获取人工智能的专业知识!

点击“阅读原文”,使用专知


展开全文
Top
微信扫码咨询专知VIP会员