中国团队狂揽5项大奖！北航团队获2021 ACM MultiMedia唯一最佳论文奖

会员服务 ·

中国团队狂揽5项大奖！北航团队获2021 ACM MultiMedia唯一最佳论文奖

2021 年 10 月 26 日 新智元

新智元报道

来源：acmmm

编辑：David 洁茹mm 好困

【新智元导读】近日，2021 ACM MultiMedia会议落下帷幕，会议揭晓了多项大奖，北航刘偲团队获得大会唯一一篇最佳论文奖。在会议公布的9个奖项中，国内团队揽下5项，实现大丰收！

又一场计算机学术盛会落下帷幕！

10月24日，2021 ACM MultiMedia会议顺利闭幕。会议公布了多个奖项：包括最佳论文奖、最佳学生论文奖、最佳Demo奖、最佳开源奖等9个奖项。

国内团队收获满满，来自 北京航空航天大学的年轻团队获会议唯一一篇最佳论文奖，来自国内的研究团队更是获得了大会9个奖项中的5个。

最佳论文奖

Video Background Music Generation with Controllable Music Transformer

用可控音乐节奏变换器（CMT）生成视频背景音乐

作者：

Shangzhe Di (北京航空航天大学)

Zeren Jiang (北京航空航天大学)

Si Liu (北京航空航天大学)

Zhaokai Wang (北京航空航天大学)

Leyan Zhu (北京航空航天大学)

Zexin He (北京航空航天大学)

Hongming Liu (英国查特豪斯公学)

Shuicheng Yan (新加坡Sea AI实验室)

狄尚哲，本文第一作者， 2020年在北京航空航天大学获得软件工程学士学位，本科毕业后进入刘偲老师的实验室，目前在北航计算机学院攻读硕士学位。

姜泽仁，本文共同一作， 2020年在北京航空航天大学获得软件工程学士学位，本科毕业后进入刘偲老师的实验室。

本文通讯作者为北京航空航天大学副教授、博士生导师刘偲。

她的研究领域包括计算机视觉和多媒体分析。她以图像视频中的人物分析为切入点，开展图像视频理解研究并形成了较为完整的体系。近年来，作为项目主持人或主要研发人员参与了国家自然科学基金面上项目、联合基金项目以及多个企业横向项目。她的个人主页： http://colalab.org/

内容提要：

视频是记录生活、表达观点、娱乐消费的绝佳媒介。近年来，越来越多的人开始拍摄和制作视频。

本文主要解决视频背景音乐生成的任务。以前的一些研究无法针对给定的视频生成悠扬的音乐，而且没有考虑视频音乐节奏的一致性。为了生成与给定视频匹配的背景音乐，我们首先建立视频和背景音乐之间的节奏关系，尤其是将视频的时间、运动速度和运动显著性与音乐的节奏、密度和强度联系起来。

本文提出了 CMT，即一种可控的音乐变换器，它能够对上述节奏特征进行本地化控制，还能对用户指定的音乐流派和使用的乐器进行全局控制。客观和主观评价表明，采用我们的技术，生成的背景音乐与输入的视频的兼容性是令人满意的，同时音乐质量之高也令人印象深刻。

论文链接：

https://dl.acm.org/doi/pdf/10.1145/3474085.3475195

最佳学生论文奖

aBio: Active Bi-Olfactory Display Using Subwoofers for Virtual Reality

aBio：在虚拟现实中为用户提供真实的嗅觉体验

作者：

You-Yang Hu (国立台湾大学)

Yao-Fu Jan (国立台湾大学)

Kuan-Wei Tseng (国立台湾大学)

You-Shin Tsai (国立台湾大学)

Hung-Ming Sung (国立台湾大学)

Jin-Yao Lin (国立台南艺术大学)

Yi-Ping Hung (国立台湾大学)

内容提要：

本文提出了一种在虚拟显示环境下的主动式生物嗅觉显示系统「aBio」，可将气味精确地传送到特定位置，增强用户在虚拟环境中的沉浸感。aBio 通过碰撞双扬声器涡流发生器发射的两个涡环，为用户提供自由空气中的自然嗅觉体验，同时可以缓冲空气的冲击力。

根据不同应用的不同要求，涡环的碰撞点可以定位在用户鼻子前方的任何位置。一系列实验和用户研究结果表明，系统是有效的，用户可以在没有感知触觉干扰的情况下闻到气味，该系统仅需消耗很少的芳香精油。我们相信 aBio 具有通过高效传递气味来提高 VR 存在水平的巨大潜力。

论文链接：

https://dl.acm.org/doi/pdf/10.1145/3474085.3475678

最佳Demo奖

ViDA-MAN: Visual Dialog with Digital Humans

ViDA-MAN：一款多模式交互的逼真数字人机代理

作者：

Tong Shen (京东AI研究院)

Jiawei Zuo (京东AI研究院)

Fan Shi (京东AI研究院）

Jin Zhang (咪咕文化)

Liqin Jiang (咪咕文化)

Meng Chen (京东AI研究院)

Zhengchen Zhang (京东AI研究院)

Wei Zhang (京东AI研究院)

Xiaodong He (京东AI研究院)

Tao Mei (京东AI研究院)

内容提要：

本文提出了一种多模式交互的数字人机代理 ViDA-MAN，为即时语音查询提供实时视听响应。与传统的基于文本或语音的系统相比，ViDA-MAN可以生成生动的语音、自然的面部表情和身体姿势。在给定语音请求的条件下，ViDA-MAN能够以亚秒级延迟响应高质量视频。

ViDA-MAN 无缝集成了多模态技术，包括声学语音识别 (ASR)、多轮对话、文本到语音 (TTS)、谈话头部视频生成，提供身临其境的用户体验。ViDA-MAN 能够与用户就多个话题进行聊天，包括聊天、天气、设备控制、新闻推荐、预订酒店，以及通过结构化知识回答问题。

论文链接：

https://dl.acm.org/doi/10.1145/3474085.3478560

最佳开源奖

X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics

X-modaler: 一个面向跨模态分析的全能型、高性能代码库

作者：

Yehao Li (中山大学)

Yingwei Pan (京东AI研究院)

Jingwen Chen (中山大学)

Ting Yao (京东AI研究院)

Tao Mei (京东AI研究院)

内容提要：

本文提出了一个多功能和高性能的代码库X-modaler，将最先进的跨模态分析封装到几个通用阶段（预处理、编码器、交叉模态交互、解码器和解码策略）。每个阶段都涵盖一系列在最先进技术中广泛采用的模块功能，并可以实现无缝切换。

这种方式可以灵活实现最先进的图像字幕、视频字幕和视觉语言预训练算法。同时，由于多个阶段的高效模块化设计在不同的视觉语言任务之间实现了共享，X-modaler 可简单地扩展，作为跨模态分析中其他任务的启动原型，比如视觉问题回答、视觉常识推理和跨模式检索。

X-modaler 是一个 Apache 许可的代码库，其源代码、示例项目和预训练模型可在线获取：https://github.com/YehLi/xmodaler。

论文链接：

https://dl.acm.org/doi/pdf/10.1145/3474085.3478331

除了上述4个奖项之外，本次会议还揭晓了SIGMM杰出技术成就奖、SIGMM新星奖、SIGMM Test of Time论文奖、SIGMM杰出博士论文奖，以及2021 NICHOLAS GEORGANAS ACM TOMM 最佳论文奖。

SIGMM杰出技术成就奖：罗杰波

罗杰波教授是罗彻斯特大学计算机科学教授，在柯达工作15年后，于2011年加入罗彻斯特大学计算机系，最后担任高级首席科学家。罗杰波教授撰写了 400 多篇技术论文和 90 多项美国专利。

罗杰波教授因在多媒体计算、通信和应用方面的杰出技术贡献而获得著名的ACM多媒体特别兴趣小组(SIGMM)奖。该奖项是为了表彰他的杰出、开拓性和连续性。

罗杰波教授在多媒体领域，尤其是社交媒体挖掘领域享有最有影响力的学者之一。他发表了论文500余篇，出版著作4部，被引用33000余次，H-index为101，美国专利95项，8项最佳论文奖。

2008年被提名为IEEE Fellow, 2018年被提名为ACM Fellow, 2018年被提名为AAAI Fellow。

SIGMM 新星奖：宋井宽

宋井宽，电子科技大学教授、博士生导师。他在多媒体，计算机视觉，人工智能等领域发表论文近100篇，谷歌学术引用1600余次，H-index为20。

Test of Time 论文奖

Dynamic Adaptive Streaming over HTTP – Standards and Design Principles

作者：Thomas Stockhammer

摘要：

在本文中，我们提供了一些关于基于HTTP的动态自适应流(DASH)规范的见解和背景知识，这些规范来自3GPP和MPEG的草案版本。具体来说，3GPP版本提供了规范描述媒体表示的格式、段的格式和传递协议。此外，它还添加了关于DASH客户端如何使用所提供的信息为用户建立流媒体服务的信息描述。该解决方案支持不同的服务类型「如按需、实时、时移查看」，不同的功能「如自适应比特率切换，多语言支持，广告插入，欺骗模式，DRM」和不同的部署选项。给出了设计原则和实例。

链接：https://dl.acm.org/doi/pdf/10.1145/1943552.1943572

杰出博士论文奖

Video Adaptation for High-Quality Content Delivery