来源:acmmm
编辑:David 洁茹mm 好困
【新智元导读】近日,2021 ACM MultiMedia会议落下帷幕,会议揭晓了多项大奖,北航刘偲团队获得大会唯一一篇最佳论文奖。在会议公布的9个奖项中,国内团队揽下5项,实现大丰收!
10月24日,2021 ACM MultiMedia会议顺利闭幕。会议公布了多个奖项:包括最佳论文奖、最佳学生论文奖、最佳Demo奖、最佳开源奖等9个奖项。
国内团队收获满满,来自
北京航空航天大学的年轻团队获会议唯一一篇最佳论文奖,来自国内的研究团队更是获得了大会9个奖项中的5个。
Video Background Music Generation with Controllable Music Transformer
Shuicheng Yan (新加坡Sea AI实验室)
狄尚哲,本文第一作者,
2020年在北京航空航天大学获得软件工程学士学位,本科毕业后进入刘偲老师的实验室,目前在北航计算机学院攻读硕士学位。
姜泽仁,本文共同一作,
2020年在北京航空航天大学获得软件工程学士学位,本科毕业后进入刘偲老师的实验室。
本文通讯作者为北京航空航天大学副教授、博士生导师刘偲。
她的研究领域包括计算机视觉和多媒体分析。她以图像视频中的人物分析为切入点,开展图像视频理解研究并形成了较为完整的体系。近年来,作为项目主持人或主要研发人员参与了国家自然科学基金面上项目、联合基金项目以及多个企业横向项目。
她的个人主页:
http://colalab.org/
视频是记录生活、表达观点、娱乐消费的绝佳媒介。近年来,越来越多的人开始拍摄和制作视频。
本文主要解决视频背景音乐生成的任务。以前的一些研究无法针对给定的视频生成悠扬的音乐,而且没有考虑视频音乐节奏的一致性。为了生成与给定视频匹配的背景音乐,我们首先建立视频和背景音乐之间的节奏关系,尤其是将视频的时间、运动速度和运动显著性与音乐的节奏、密度和强度联系起来。
本文提出了 CMT,即一种可控的音乐变换器,它能够对上述节奏特征进行本地化控制,还能对用户指定的音乐流派和使用的乐器进行全局控制。客观和主观评价表明,采用我们的技术,生成的背景音乐与输入的视频的兼容性是令人满意的,同时音乐质量之高也令人印象深刻。
https://dl.acm.org/doi/pdf/10.1145/3474085.3475195
aBio: Active Bi-Olfactory Display Using Subwoofers for Virtual Reality
本文提出了一种在虚拟显示环境下的主动式生物嗅觉显示系统「aBio」,可将气味精确地传送到特定位置,增强用户在虚拟环境中的沉浸感。aBio 通过碰撞双扬声器涡流发生器发射的两个涡环,为用户提供自由空气中的自然嗅觉体验,同时可以缓冲空气的冲击力。
根据不同应用的不同要求,涡环的碰撞点可以定位在用户鼻子前方的任何位置。一系列实验和用户研究结果表明,系统是有效的,用户可以在没有感知触觉干扰的情况下闻到气味,该系统仅需消耗很少的芳香精油。我们相信 aBio 具有通过高效传递气味来提高 VR 存在水平的巨大潜力。
https://dl.acm.org/doi/pdf/10.1145/3474085.3475678
ViDA-MAN: Visual Dialog with Digital Humans
ViDA-MAN:一款多模式交互的逼真数字人机代理
Zhengchen Zhang (京东AI研究院)
本文提出了一种多模式交互的数字人机代理 ViDA-MAN,为即时语音查询提供实时视听响应。与传统的基于文本或语音的系统相比,ViDA-MAN可以生成生动的语音、自然的面部表情和身体姿势。在给定语音请求的条件下,ViDA-MAN能够以亚秒级延迟响应高质量视频。
ViDA-MAN 无缝集成了多模态技术,包括声学语音识别 (ASR)、多轮对话、文本到语音 (TTS)、谈话头部视频生成,提供身临其境的用户体验。ViDA-MAN 能够与用户就多个话题进行聊天,包括聊天、天气、设备控制、新闻推荐、预订酒店,以及通过结构化知识回答问题。
https://dl.acm.org/doi/10.1145/3474085.3478560
X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics
X-modaler: 一个面向跨模态分析的全能型、高性能代码库
本文提出了一个多功能和高性能的代码库X-modaler,将最先进的跨模态分析封装到几个通用阶段(预处理、编码器、交叉模态交互、解码器和解码策略)。每个阶段都涵盖一系列在最先进技术中广泛采用的模块功能,并可以实现无缝切换。
这种方式可以灵活实现最先进的图像字幕、视频字幕和视觉语言预训练算法。同时,由于多个阶段的高效模块化设计在不同的视觉语言任务之间实现了共享,X-modaler 可简单地扩展,作为跨模态分析中其他任务的启动原型,比如视觉问题回答、视觉常识推理和跨模式检索。
X-modaler 是一个 Apache 许可的代码库,其源代码、示例项目和预训练模型可在线获取:https://github.com/YehLi/xmodaler。
https://dl.acm.org/doi/pdf/10.1145/3474085.3478331
除了上述4个奖项之外,本次会议还揭晓了SIGMM杰出技术成就奖、SIGMM新星奖、SIGMM Test of Time论文奖、SIGMM杰出博士论文奖,以及2021 NICHOLAS GEORGANAS ACM TOMM 最佳论文奖。
罗杰波教授是罗彻斯特大学计算机科学教授,在柯达工作15年后,于2011年加入罗彻斯特大学计算机系,最后担任高级首席科学家。罗杰波教授撰写了 400 多篇技术论文和 90 多项美国专利。
罗杰波教授因在多媒体计算、通信和应用方面的杰出技术贡献而获得著名的ACM多媒体特别兴趣小组(SIGMM)奖。该奖项是为了表彰他的杰出、开拓性和连续性。
罗杰波教授在多媒体领域,尤其是社交媒体挖掘领域享有最有影响力的学者之一。他发表了论文500余篇,出版著作4部,被引用33000余次,H-index为101,美国专利95项,8项最佳论文奖。
2008年被提名为IEEE Fellow, 2018年被提名为ACM Fellow, 2018年被提名为AAAI Fellow。
宋井宽,电子科技大学教授、博士生导师。他在多媒体,计算机视觉,人工智能等领域发表论文近100篇,谷歌学术引用1600余次,H-index为20。
Dynamic Adaptive Streaming over HTTP – Standards and Design Principles
作者:Thomas Stockhammer
摘要:
在本文中,我们提供了一些关于基于HTTP的动态自适应流(DASH)规范的见解和背景知识,这些规范来自3GPP和MPEG的草案版本。具体来说,3GPP版本提供了规范描述媒体表示的格式、段的格式和传递协议。此外,它还添加了关于DASH客户端如何使用所提供的信息为用户建立流媒体服务的信息描述。该解决方案支持不同的服务类型「如按需、实时、时移查看」,不同的功能「如自适应比特率切换,多语言支持,广告插入,欺骗模式,DRM」和不同的部署选项。给出了设计原则和实例。
链接:https://dl.acm.org/doi/pdf/10.1145/1943552.1943572
Video Adaptation for High-Quality Content Delivery
作者:Kevin Spiteri
摘要:
在本论文中,我们提出了视频自适应算法来传递内容并最大化观众的体验质量。视频提供商将视频分割成短段,并对每段编码多个比特率。视频播放器自适应地选择每段的比特率下载时,可能会为连续的段选择不同的比特率。我们将比特率自适应定义为一个效用最大化问题,并设计算法来实现,提供了可证明的接近最佳的时间平均效用。
论文链接:
https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=3193&context=dissertations_2
2021 NICHOLAS GEORGANAS ACM TOMM 最佳论文奖
Do Users Behave Similarly in VR? Investigation of the User Influence on the System Design
作者:
Silvia Rossi(伦敦大学学院,英国)
Cagri Ozcinar(爱尔兰都柏林三一学院)
Aljosa Smolic(爱尔兰都柏林三一学院)
Laura Toni(伦敦大学学院,英国)
摘要:
我们通过提供一个公共可用的数据集来补充当前的数据集,该数据集提供了获得的导航轨迹,用于异构的全向视频和不同的观看平台,即头戴显示器、平板电脑和笔记本电脑。然后,我们对收集的数据进行了详尽的分析,以更好地理解虚拟现实中的导航,跨越用户、内容,并首次跨越观看平台。
实验结果证明,我们的解决方案不仅在体验质量方面优于一般公司的建议,而且在编码和存储方面,达到了高达70%的节省。更重要的是,我们强调了存储成本和用户亲和性度量之间的强相关性,显示了后者在系统架构设计中的影响。
https://2021.acmmm.org/awards