多语种虚拟主播「掰头」央视记者，新闻可以AI编?

2021 年 12 月 1 日 THU数据派

  
  
    
   
   
     
    
    
      
     
     
       
      
      
        
       
       
          
          来源：新智元 
         
      
      
        
     
     
       
    
    
      
   
   
     
  
  
    
  
  
    
   
   
     
    
    
      
     
     
       
      
      
        

     
     
       
    
    
      
    
    
      
     
     
       
      
      
        
       
       
          
            本文约4379字，建议阅读8分钟 
           
           本文介 
           绍了央视记者和数字虚拟主播进行了一场新闻播报语速大PK，以及播报新闻的多语种AI虚拟主播。

【导读】一场论坛让全国各地总编辑齐聚于粤港澳大湾区。这场论坛，究竟有多大的吸引力？现场，央视记者和数字虚拟主播进行了一场新闻播报语速大PK，还有提供冬奥讲解的AI手语主播，播报新闻的多语种AI虚拟主播...

IDC在最新的报告中指出，随着AI技术的进步，媒体在内容的生产、管理、分发和交互上都发生着本质的变化。

那么，我们不禁要问：

5G、8K、AI……未来媒体会是什么模样？

内容、技术、责任……媒体融合如何持续深入？

近日，2021年中国网络媒体论坛在广州召开。

在这个被誉为「观察中国网络媒体发展走向重要窗口」的年度盛会上，来自中央和国家机关，中央新闻单位，以及业界专家学者、编辑记者和社会各界代表纷纷出席。

这场论坛，究竟有多大的吸引力？

现场，中央广播电视总台记者和数字虚拟主播小C进行了一场新闻播报语速大PK，你猜谁更胜一筹？

百度‍虚拟主播小C

另外，央视新闻的首个「冬奥AI手语主播」在网络媒体论坛上正式亮相。她将在2022年冬奥会上为中国听障人群带来手语服务。‍

百度AI手语主播

除了虚拟人小C和手语主播， 科大讯飞自主研发的全球首个多语种AI虚拟主播小晴 也在论坛上展出。

‍

「大家好，我是科大讯飞AI虚拟主播小晴，我可以用多语种进行播报。」

这位端庄大气的女主播说话声音、动作和神情惟妙惟肖，让人难以分辨是真是假。她不仅可以用30余种（含外语及方言）语言播报新闻，还支持文本到视频的自动输出。

此次论坛上汇集了来自中央和地方新闻单位、知名互联网企业、县级融媒体中心等43家单位。他们纷纷亮出自家的网络媒体「黑科技」。

可以看出，人工智能的发展已经让这个信息社会进入了融媒体时代，AI+媒体正在进行中...

AI助力媒体的智能转型

过去，新闻由人来完成，现在，语音识别、语音合成、机器翻译、图像识别、自然语言处理等人工智能技术正在改变媒体传统故事的生产和传播方式。

从国内来看，2015年，腾讯财经最先发表了由Dreamwriter新闻写作机器人编写的经济消息，开创了中国机器人写稿先河。

腾讯写作机器人编写的新闻

由此看出，AI从最初进驻新闻机构，到写稿机器人交出新闻稿，再到机器人抢独家新闻，前后不过3-4年时间。

那么，效果如何？

2019年，新华社智能化编辑部建成运行，在智能系统助力下，生产效率可提升 3-5倍 。

在AI加入之后，媒体的融合也不是一蹴而就的，其先后经历了「从流程中心转变为数据中心」的数媒时代，「从新媒体转向为融媒体」的融媒时代。现在则是探索「大数据+智能化为赋能」的智媒时代。

近日，IDC发布了一份关于《「AI+媒体」助力内容生产、审核、分发、创新四大环节》的报告。

报告显示，近年来中国智能媒体解决方案的市场规模正处在快速增长的阶段。仅2020年的规模就已经达到了4.8亿元人民币，并预计在2021年底达7亿元左右。

复合年均增长率（CAGR）方面，2020到2025年期间将达到46.3%，尤其是2022年，增长率预计将超过50%，达到近5年的峰值。

中国智能媒体解决方案市场规模预测

从智能媒体市场生态上来看，科大讯飞、百度智能云、阿里云等公司基于自身的AI技术能力，面向媒体等相关领域打造越来越丰富、深入场景的产品及垂直行业解决方案。

智能媒体市场生态（来源：IDC报告）

在AI赋能传统媒体这条路上，这些企业给出了很多「AI+媒体」的想象，尤其是那些综合AI技术供应商。

比如，基于人脸识别、知识图谱、语音等技术，阿里云视频和人民日报社共同研发的「人民日报社AI智能编辑部」，为媒体的新闻采编生产提供了看、听、悟、审、查等各方面能力。

人民日报社AI智能编辑部

新华智云则是将AI能力与媒体行业场景结合，自主研发了覆盖媒体生产策、采、写、编、发、审全流程的「媒体大脑」。

同样，以人工智能为核心的科大讯飞「AI+媒体」整体解决方案早已在媒介传播「采编播审存」的各个环节落地应用。

这背后，便是科大讯飞22年来在AI领域深耕的成果，尤其是语音技术基础算法贯穿了科大讯飞「AI+媒体」整个解决方案。

其中，以虚拟主播进行新闻播报的「播」，可以说是最具有代表性的一环了。

虚拟主播演变史

多年来，基于语音合成、人脸识别、图像合成、机器翻译等多项AI技术，科大讯飞推出了一代又一代虚拟人。

2018年，科大讯飞和南方财经推出AI虚拟主播俎江涛「上岗」，播报了当天的财经新闻。

在科大讯飞先进的语音合成技术加持下推出的虚拟主播，通过模仿真实主持人俎江涛的声音，使其音质及自然度更加贴近本人的声音。

此后，以虚拟主播「小晴」为代表的语音+图像的AI虚拟主播家族陆续上岗，小晴还可以讲30多种语言。

科大讯飞AI虚拟主播家族

他们都是通过采集录制真人的声音素材，再通过声音标注以及机器的深度学习算法，构建发音声学模型建成。

再应用上图像处理等技术，使得他们在播报过程能达到自然的表情和精准的口型。

为了让虚拟主播从声音到形象都能实现多元化，科大讯飞陆续推出了定制化多语种AI虚拟主播。

就比如，2019年，科大讯飞与中央广播电视总台联合打造AI虚拟记者「通通」，在视频中带领观众游历「一带一路」沿途的风土人情。

科大讯飞AI虚拟记者通通

紧接着在同年央视4套五一特别节目中，科大讯飞打造出虚拟主播形象「纪小萌」亮相。

还有人民日报和讯飞联手打造虚拟主播「果果」亮相数博会现场，能够流利地向观众播报国内外热点事件。

科大讯飞虚拟主播果果

之后，合肥电视台定制了男女双主播「王小健」和「马小腾」。2020年3月，新华报业联合讯飞推出交汇点云媒的虚拟主播「汇汇」，能听会说，还能懂你。

科大讯飞虚拟主播汇汇

在刚刚过去的第四届世界声博会暨2021科大讯飞全球1024开发者节上，科大讯飞董事长刘庆峰发布了业界首个虚拟人交互系统，一分钟就可以定制一个虚拟人。

科大讯飞个性化真人捏脸系统，支持根据个人喜好快速生成3D个性化人脸的主播视频

一路走来，讯飞虚拟人在推进媒体智能化过程中经历不断迭代升级。这些虚拟主播能与真人无异地播报新闻的背后，其实都是科大讯飞的人工智能技术在助力。

从最初语音合成主播，到语音+图像的多语种AI主播，再到现在由语音识别、语义理解、语音合成、虚拟形象等多种AI技术加持下的虚拟人，科大讯飞在AI+媒体中的「播」这一环节一直在攀登。

当然，采、编、审、存也不例外。

构建完整的AI+媒体解决方案

巧妇难为无米之炊，对于内容的生产，素材的采集可以说是重中之重了。

在2019年的两会现场，《中国日报》抖音号的一个小视频分分钟播放量突破一千万，点赞数超过五十万。

只见会场里，拿着手机、录音笔、单反等设备的记者把被采访人围着水泄不通，而《中国日报》的记者则淡定地站在人群外面，手机的屏幕上显示着讲话的文字，完全不同于其他记者的紧张状态。

而记者当时用的，正是讯飞听见的APP。

中国日报记者在两会现场使用讯飞听见APP

一直以来，整理采访录音都是非常繁琐的工作。1个小时的录音，整理成文字大概要花费3个小时以上的时间。

于是，科大讯飞在「采」这个环节上，推出了讯飞听见APP、录音笔等设备。

通过语音和机器翻译技术，不仅可以实现最基础的录音功能，而且还可以实时看到相应的文字版本。

而且在科大讯飞的语音技术加持下，除了可以将现场语音1秒转换成文字，还可以只用5到10分钟就把1个小时的会议内容转换成文稿，极大地提高了出稿效率。

现在，科大讯飞更是支持8大语种、12种方言和2个民族语言的实时转写，让记者们可以在更多的场景下高效的获取文字素材。

科大讯飞录音笔

有了素材，接下来就到了「编」这个步骤。

为此，讯飞推出了「智能文稿唱词系统」和「智能直播字幕系统」。

文稿唱词系统集成了采集、转码、转写、音频编辑等功能，可以实现5-10分钟将1小时的音频转写成文稿和字幕。

早在2019年科大讯飞就为中央电视台的春节联欢晚会提供了字幕制作支持，其文稿唱词系统将传统的流程简化为语音AI转写、核对修改、字幕生成审核三步。

对于字幕/时码的编辑校验工作来说，所需的人员数量从往年的16人减少到4人，平均的制作时间也减少23%，有效地减轻了字幕编辑者的负担。

此外，在这个环节中还有直播字幕系统，可以在进行直播工作的同时，提供高正确率的初稿字幕文本。

央视春晚字幕制作

新闻在正式发布之前，「审」显然是必不可少的。

同样，讯飞推出了相应的「智能内容监审平台」。

通过语音转写、人脸识别、声纹识别等人工智能技术，可以从关键词、人脸、图片以及声纹等不同维度与关键库信息进行匹配，承担起新闻质量「把关人」的责任。

新闻信息安全审核管理系统

最后，在「存」这个环节，讯飞推出了「智能内容管理平台」。

利用语音识别，声纹识别，人脸识别，NLP 等人工智能技术，智能内容管理平台提供了音视频内容监管、检索、自动编目、自动化标签等功能。

由此，也就解决了困扰音视频管理多年的检索和编目困难的问题。

智能内容管理平台

那么，这个「采编播审存」和其他的方案又有何不同呢？

从IDC的报告中可以看出，现阶段智能媒体的流程可以概括为：素材的输入，内容的生产，成品的输出，以及审核和管理。

而这对应的也就是，采、编、播、审、存这5个环节。（从设定的重合度上来说，创新应用完全可以放到「播」这个环节。）

智能媒体技术架构图（来源：IDC报告）

当然，如果想细化一些，分发运营也有对应的解决方案：内容运营和内容传播。

AI智慧媒体解决方案生态架构

所以其实不难得出，从最初素材的收集到最终呈现的新闻，科大讯飞凭借着自己的生态构成了一个完整的AI+媒体解决方案。

而从始至终不变的是，科大讯飞在语音方面的核心能力。从语音合成技术一直到现在AI虚拟人，科大讯飞在人工智能发展史上树立了里程碑。

人工智能发展史

比人类更强大的不是AI，而是掌握了AI的新人类。在新闻传播领域，比传统采编更强大的不是虚拟主播，而是掌握了虚拟主播、掌握了AI赋能之下「采、编、播、审、存」能力的AI新闻人。

从让设备发声到让新闻发声，科大讯飞一直在改变着世界沟通的方式。

未来，我们或许也可以从「静默如谜」变成「万物有灵」吧。

参考资料：

https://www.iflyrec.com/html/products/zhmt.html

https://www.sohu.com/a/354525160_609520

https://www.xfyun.cn/solution/AI-smart-media-solution

https://baijiahao.baidu.com/s?id=1627258276246348865&wfr=spider&for=pc

https://www.sohu.com/a/503103748_99900743

—— END ——

登录查看更多

相关内容

科大讯飞

关注 0

1999年成立，主要技术包括：语音合成和语音识别。

虚拟数字人，哪家最强？中国传媒大学发布《中国虚拟数字人影响力指数报告》，41页pdf

专知会员服务

76+阅读 · 2022年3月3日

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

专知会员服务

45+阅读 · 2022年3月1日

2022北京冬奥！领略冬奥上的硬科技【中国科技创新之路——科技冬奥】

专知会员服务

29+阅读 · 2022年2月16日

深度伪造与检测技术综述

专知会员服务

75+阅读 · 2020年12月12日

【新书】自然语言处理表示学习技术，349页pdf，清华大学

专知会员服务

174+阅读 · 2020年7月11日

AI手语「翻译官」上岗！看鹅厂「小聪」解说谷爱凌人生最高兴1秒钟

新智元

0+阅读 · 2022年2月11日

北京冬奥又曝黑科技：连气象主播都是AI虚拟人

量子位