Music is essential when editing videos, but selecting music manually is difficult and time-consuming. Thus, we seek to automatically generate background music tracks given video input. This is a challenging task since it requires plenty of paired videos and music to learn their correspondence. Unfortunately, there exist no such datasets. To close this gap, we introduce a dataset, benchmark model, and evaluation metric for video background music generation. We introduce SymMV, a video and symbolic music dataset, along with chord, rhythm, melody, and accompaniment annotations. To the best of our knowledge, it is the first video-music dataset with high-quality symbolic music and detailed annotations. We also propose a benchmark video background music generation framework named V-MusProd, which utilizes music priors of chords, melody, and accompaniment along with video-music relations of semantic, color, and motion features. To address the lack of objective metrics for video-music correspondence, we propose a retrieval-based metric VMCP built upon a powerful video-music representation learning model. Experiments show that with our dataset, V-MusProd outperforms the state-of-the-art method in both music quality and correspondence with videos. We believe our dataset, benchmark model, and evaluation metric will boost the development of video background music generation.
翻译:在编辑视频时,音乐是关键,但是手工选择音乐是困难和耗时的。 因此, 我们试图自动生成背景音乐轨道, 给视频输入。 这是一项艰巨的任务, 因为它需要大量配对视频和音乐来学习它们的通信。 不幸的是, 不存在这样的数据集。 为了缩小这一差距, 我们引入了一个数据集、 基准模型和视频背景音乐制作的评估衡量标准。 我们引入了视频和象征性音乐数据集SymMV, 一个视频和象征性的音乐数据集, 以及合音、 节奏、 旋律和配音说明。 为了解决视频和音乐通信缺乏客观衡量标准的问题, 我们建议以最先进的视频- 音乐教学模型为基础, 并配有高品质的象征性音乐和详细说明。 我们还提出一个名为 V- Mus Prod 的基准视频背景音乐制作框架, 这个框架使用音乐前的音乐、 旋律、 以及视频- 音乐生成特征的视频- 组合, 我们用高品质的视频- 测试模型来展示我们的数据- 和图像- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 和模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 和模型- 模型- 模型- 模型- 模型- 模型- 和模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 和模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型-