学界 | 普林斯顿与Adobe提出音频编辑技术VoCo：可基于文本插入和替换语音

会员服务 ·

学界 | 普林斯顿与Adobe提出音频编辑技术VoCo：可基于文本插入和替换语音

2017 年 5 月 28 日 机器之心

选自 kurzweilai

机器之心编译

参与：Jane W，吴攀

普林斯顿大学计算机科学家发明的技术可以像文本编辑软件对文字和 Adobe Photoshop 对图像一样对人的声音进行编辑。

正在研发中的「VoCo」软件使得添加或者替换语音中的词变得容易，仅仅通过编辑语音的文字转录（transcript）。新词将会自动合成到讲话中 —— 尽管这些词并没有出现在录音中。

该系统使用一个成熟的算法来学习和重建一段特定的声音。这将会使编辑播客和视频中的解说词更加容易，或者在将来，根据联合开发者 Adam Finkelstein 的想法（普林斯顿计算机科学教授），创建更自然的机器人拟人化声音。这将帮助因受伤或疾病失去声音的人借助机器系统重建更自然的声音。

VoCo 的早期版本于 2016 年 11 月发布。相关的研究论文在 Transactions on Graphics 的 7 月刊发表：http://gfx.cs.princeton.edu/pubs/Jin_2017_VTI/

运作机理（技术性描述）

VoCo 使得人们通过简单地替换计算机屏幕上的文字来编辑语音。该系统将新词插入到原来的语音中。

VoCo 的用户交互界面与其它语音编辑软件相似，如播客编辑软件 Audacity，它有一个声波形式的音频轨道与剪切、复制和粘贴的编辑工具。VoCo 通过音轨的文字转录放大声波，使得用户只需在转录中编辑即可替换或插入音频中没有的新词。当用户输入新词时，VoCo 同时更新音轨，通过连接解说中的语音片段来自动合成新词。

VoCo 基于优化算法，它搜索语音并选择最佳的音素（词的部分发音）组合来建立新词。为此，算法需要寻找单个音素与连接没有突然过渡的语音序列。它也需要使新词无缝衔接到原语句中。语句中不同位置的词在重音和语调的发音上也不相同，因此语境非常关键。

高级 VoCo 编辑器可以人工调整音高、振幅和片段时长。新手用户可以从预设的一组音高（底部）中选择，或者录一段自己的声音作为调整音高和时长（顶部）的参考。

关于语境，VoCo 在由转录自动合成的人工声音的音轨中寻找语句 —— 这听起来像机器发出的声音。这段语音在构建新词中起到参考作用。VoCo 在合成音轨中将这段声音与真实的人声相匹配 —— 此技术被称为「声音转换（voice conversion）」，这也是此项目的名称 VoCo 的来由。

为了应对合成词错误的情况，VoCo 向用户提供多个备用词以供选择。该系统也提供高级编辑器来调整音高和时长，以便进一步优化音质。

为了测试该系统是否为高效可靠的声音编辑器，研究人员让测试者听一组音轨，其中一些由 VoCo 合成，另一些为完全自然的人声。有超过 60% 的全自动合成的声音被误认为是真实的人声。

普林斯顿的研究人员正在调整 VoCo 的算法来使合成音更平滑的嵌入到音轨中。他们正扩展系统的能力以便生成更长的短语，甚至根据说话者的声音来生成整个语句。

制作假新闻视频？

迪士尼研究项目 FaceDirector 使得编辑视频中的面部表情和声音成为可能。

Finkelstein 建议，VoCo 的一个有用的应用场景为人工智能私人助手，例如苹果的 Siri、谷歌助手、亚马逊的 Alexa 和微软的 Cortana，它的另一个应用场景为利用老电影合成演员的声音。

但是这也会涉及到欺诈问题。它甚至可以合成逼真的假视频。我们可以编辑带有不同表情和嘴唇动作的视频剪辑（例如使用迪士尼的研究项目 FaceDirector）并与相关的假语音和背景声音（噪音和交谈声）相匹配，同时可以借助绿幕（green screen）生成假背景。

普林斯顿的研究生 Zeyu Jin（他的导师为 Finkelstein）将在 7 月份的 ACM SIGGRAPH 会上介绍该成果。该项目由 X 项目基金资助，该基金向工程师提供种子资金用于创新项目的研究。VoCo 由普林斯顿大学的研究人员与 Adobe Research 的科学家 Gautham Mysore、Stephen DiVerdi 和 Jingwan Lu 合作研究。Adobe 尚未公布 VoCo 的商业版本，或任何将 VoCo 整合到 Adobe Premiere Pro（或 FaceDirector）中的计划。

论文：VoCo：音频旁白中基于文本的插入和替换（VoCo: Text-based Insertion and Replacement in Audio Narration）

论文地址：http://gfx.cs.princeton.edu/pubs/Jin_2017_VTI/

使用传统的软件编辑语音常常涉及到许多低级的人工操作。一些最先进的系统允许用户在语音的转录文本中编辑，并直接在转录文本中执行选择、剪切和粘贴操作；然后这些操作将直接自动应用于对应的声波。然而，对于基于文本的交互界面，一个显然的障碍是编辑转录文本中没有出现过的新词，例如为了强调插入新词或者替换说错的词。虽然当今有很多高质量的语音合成器，面临的挑战在于生成与语音中其它部分相匹配的新词。本论文提出了一种合成新词和短语的系统，该系统能达到新词与语境中其余语音无缝衔接的效果。我们的方法是使用文本到语音（text to speech）的合成器来泛化地生成词对应的语音，然后使用语音转换将其转换为与讲话者相似的语音。操作界面提供了一系列的编辑功能，如支持全自动合成、在一组备选语音中选择、精确控制编辑位置和音高，以及甚至通过用户自己的声音操控。本论文的研究结果表明，该方法的输出优于基线方法的输出，并且输出的语音通常难以与原始语音相区分。

更多有关GMIS 2017大会的内容，请点击「阅读原文」查看机器之心官网 GMIS 专题↓↓↓