多媒体顶会ACM Multimedia 2024各大奖项揭晓！杭电等获最佳论文，莫纳什大学等获最佳学生论文

【导读】第32届ACM国际多媒体会议（ACM MM）于2024年10月28日至11月1澳大利亚墨尔本举行。最佳论文，最佳学生论文，最佳demo，最佳开源软件在内的所有多媒体领域大奖都已出炉。

ACM国际多媒体会议（ACM International Conference on Multimedia, 简称自1993年首次召开以来，ACMMM每年召开一次，已经成为多媒体领域顶级会议，也是中国计算机学会推荐的A类国际学术。会议热门方向有大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像等等。

最佳论文

标题****：****From Speaker to Dubber: Movie Dubbing with Prosody and Duration Consistency Learning（从说话者到配音演员：基于韵律和时长一致性学习的电影配音）

作者******：******Zhedong Zhang, Liang Li, Gaoxiang Cong, Haibing YIN, Yuhan Gao, Chenggang Yan, Anton Hengel, Yuankai Qi

摘要：

电影配音旨在将剧本转换为与给定电影片段在时间和情感方面都一致的语音，同时保持一段简短参考音频的声音音色。配音语音在情感、节奏和环境方面必须表现出广泛的变化，以实现真正的对齐，这使得配音成为一项复杂的任务。考虑到电影配音数据集的规模有限（由于版权问题）以及背景噪音的干扰，直接从电影配音数据集中学习会限制模型的发音质量。为了解决这个问题，我们提出了一种两阶段的配音方法，该方法允许模型在进行电影配音之前先学习发音知识。在第一阶段，我们引入了一种多任务方法，在大规模文本-语音语料库上预训练一个音素编码器，以学习清晰自然的音素发音。在第二阶段，我们设计了一个韵律一致性学习模块，以桥接情感表达与音素级配音韵律属性（如音高和能量）。最后，我们设计了一个时长一致性推理模块，以对齐配音的时长和唇部运动。大量实验表明，我们的方法在两个主要基准上优于几种最新的方法。源代码和模型检查点将向公众开放。演示可在 https://speaker2dubber.github.io/ 上查看。

**论文地址：**https://dl.acm.org/doi/pdf/10.1145/3664647.3680777

最佳学生论文

标题**：**********AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset（一个由大型语言模型驱动的大规模音视频深度伪造数据集）

作者****： ********Zhixi Cai, Shreya Ghosh, Aman Pankaj Adatia, Munawar Hayat, Abhinav Dhall, Tom Gedeon, Kalin Stefanov

摘要：高度逼真的音视频深度伪造内容的检测与定位，即使对于最先进的前沿方法来说也是一项挑战。尽管该领域的大多数研究都集中于检测高质量的深度伪造图像和视频，只有少数工作关注嵌入在真实视频中的小段音视频操控的定位问题。在本研究中，我们模拟了此类内容生成的过程，并提出了AV-Deepfake1M数据集。该数据集包含内容驱动的(i) 视频操控，(ii) 音频操控，以及 (iii) 音视频操控，涵盖超过2000名对象，共计超过100万个视频。本文详细描述了所提出的数据生成流程，并对生成数据的质量进行了严格分析。使用最先进的深度伪造检测和定位方法对所提出数据集进行的全面基准测试表明，与先前的数据集相比，性能显著下降。该数据集将在构建下一代深度伪造定位方法中发挥重要作用。该数据集及相关代码可通过此链接获得。

论文地址：

https://arxiv.org/abs/2311.15308

标题**：**********An In-depth Study of Bandwidth Allocation across Media Sources in Video Conferencing（视频会议中媒体源带宽分配的深入研究）

作者：Zejun Zhang, Xiao Zhu, Anlan Zhang, Feng Qian 摘要：视频会议应用（VCAs）通过同时传输音频、视频和屏幕共享内容，为远程工作和教育中的实时通信提供了不可或缺的支持。尽管这些平台应用广泛，但关于它们如何在网络带宽受限的情况下分配资源，以及这些资源分配策略如何影响用户体验质量（QoE）的研究仍然缺乏。本文通过分析Zoom、Webex和Google Meet中的带宽分配策略，并重点研究其对QoE的影响，填补了这一研究空白。为了评估QoE，我们提出了一个基于从800名参与者的研究中收集的数据的通用QoE预测模型。这项研究是首次在不同场景和网络条件下评估多媒体传输的尝试，超越了以往仅关注单一媒体类型的研究。结果表明，该模型在预测各种VCA场景下的QoE方面具有有效性和通用性。