新进展！英伟达用 AI 给纪录片配音，情绪语调拿捏得稳稳地

2021 年 9 月 3 日 THU数据派

  
  
    
   
   
     
    
    
      
     
     
       
      
      
        
       
       
          
          
 
         
      
      
        
     
     
       
     
     
       
      
      
        
       
       
                 
        
          
         
         
           
          
          
                       
           
             
            
            
              
             
             
               
              
              
                
               
               
                 
                
                
                   
                   来源：AI科技大本营 
                  
               
               
                 
              
              
                
             
             
               
            
            
              
           
           
             
           
           
             
            
            
              
             
             
               
              
              
                
               
               
                 

              
              
                
             
             
               
             
             
               
              
              
                
               
               
                 
                
                
                   
                     本文约1031字，建议阅读3分钟 
                   
                     本文介绍了AI以假乱真的语音合成能力。

AI 已经将合成语音从单调的机器人电话和传统 GPS 导航系统转变为智能手机和智能扬声器中动听的虚拟助手。

虽然日常和Siri、小爱或小度等对话时声音还是很机械，但最新的技术进展显示， AI 的语音合成能力已经可以说得上是以假乱真了，并且还尝试自我创新，赶上八卦潮流（你能听出来这是AI合成的吗？）。

比如说：

人工智能合成的语音与我们在日常对话和媒体中听到的人类语音之间仍然存在一些差距，这是因为 人们说话的节奏、语调和音色都很复杂，这对 AI 来说是难以模仿的。

这一差距正在迅速缩小。

NVIDIA 研究人员正在创建高质量、可控制的语音合成模型和工具，这些模型和工具能够捕捉人类语音的丰富性，并且不会出现音频杂音。

这些模型可实现为银行和零售商的自动客户服务热线配音、使视频游戏和书籍中的人物变得栩栩如生，并为数字化身提供实时语音合成。

情感语音合成只是NVIDIA研究院在对话式AI领域的重点工作之一 。该领域还包括自然语言处理、自动语音识别、关键词检测、音频增强等。

01. I AM AI

NVIDIA 研究人员目前正在 INTERSPEECH 2021大会上展示他们的最新项目，本届大会将持续到9月3日。

语音合成模型已经被应用到 I AM AI 系列视频中，为这个介绍重塑各行业全球 AI 创新者的系列视频制作了生动的解说。

以前的语音合成模型对合成声音节奏和音调的控制十分有限，因此 AI 配音无法唤起观众的情感反应，只有富有感情的人类声音才能做到这一点。

过去一年，NVIDIA文本-语音研究团队开发出更强大、更可控的语音合成模型（如RAD-TTS），解决了上述难题。

NVIDIA 在 SIGGRAPH Real-Time Live 比赛中的获奖演示即采用这个模型。通过使用人类语音音频来训练文本-语音模型，RAD-TTS 可以将任何文本转换成说话人的声音。

该模型的另一项功能是语音转换，即使用一名说话人的声音讲述另一名说话人的话或歌唱。

RAD-TTS 界面的灵感来自于将人的声音作为一种乐器这一创意。用户可以使用它对合成声音的音调、持续时间和强度进行精细的帧级控制。

通过这个接口，视频制作者可以在录制中自行阅读视频文本，然后使用AI模型将他作为男叙述者的语音转换成女叙述者的声音。

制作者可使用这个基准叙述，像指导配音演员一样指示 AI ，比如通过调整合成语音来强调特定的词语、修改叙述节奏以更好地表达视频中的语气等。

该 AI 模型的能力已超出了配音工作的范围：文本-语音转换可以用于游戏、为有声音障碍的人提供帮助、或帮助用户用自己的声音进行不同语言的叙述。它甚至能重现标志性歌手的表演，不仅可以匹配歌曲的旋律，还能匹配人声背后的情感表达。

为AI开发者和研究者提供语音功能

为了方便企业及研究人员的应用，NVIDIA提供了GPU加速的语音SDK。

NVIDIA NeMo是一款用于GPU加速对话式AI的开源Python工具包。NeMo中易于使用的API和预训练模型能帮助研究人员开发和自定义用于文本-语音转换、自然语言处理和实时自动语音识别的模型。

其中几个模型是在NVIDIA DGX系统上使用数万小时的音频数据训练而成。开发者可根据自己的使用情况对任何模型进行微调，用NVIDIA Tensor Core GPU上的混合精度计算加快训练速度。

NVIDIA NeMo还通过NGC提供在Mozilla Common Voice上训练的模型，该数据集拥有76种语言、近14000小时的众包语音数据。其目标是在NVIDIA的支持下，通过全球最大的开源数据语音数据集实现语音技术的普及化。

结语

其实，不只是英伟达，此前，小冰也发布过超级自然语音技术。小冰公司 CEO 李笛此前曾表示，AI的声音太接近真人，就很有可能被滥用。因此小冰禁止为普通个人训练声音。

但这样的技术，也逐渐走进人们的日常生活中。

你平时会和手机助手怎么交流呢？可以在下方留言区评论呦~

参考链接：

https://blogs.nvidia.com/blog/2021/08/31/conversational-ai-research-speech-synthesis-interspeech/

—— END ——

登录查看更多

相关内容

语音合成

关注 0

语音合成（Speech Synthesis），也称为文语转换（Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域中的一项前沿技术。随着计算机技术的不断提高，语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成，再发展到混合语音合成；合成语音的质量、自然度已经得到明显提高，基本能满足一些特定场合的应用需求。目前，语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用，取得了巨大的经济效益。另外，随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现，语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

专知会员服务

45+阅读 · 2022年3月1日