对话搜狗陈伟：AI合成主播下一步将如何进化？

会员服务 ·

对话搜狗陈伟：AI合成主播下一步将如何进化？

2019 年 3 月 15 日 机器之能

2018年底，在第五届世界互联网大会上，“克隆”于真人主播邱浩的全球首个AI合成男主播“首秀”，由新华社联合搜狗发布，很快在全球范围内引起热议。

陈伟，搜狗语音交互技术中心高级总监，同时也是新华社AI主播项目的负责人。他表示，从去年11月到现在，新华社工作的两位AI主播已经播报了几千余条新闻，没有出现过失误。

今年2月19日，男主播升级成为站立式AI合成主播“新小浩”，站立式“新小浩”不仅能坐着播报新闻，还能站起来，带着手势、姿态等多种肢体动作，更接近于真人。与此同时，双方还推出了首个AI合成女主播“新小萌”。

在新华社，基于两位真实主播的声音、表情等真实数据生成模型，工作人员仅需要输入新闻稿，就可以让AI形象自动根据文字播报。并且，无需进行二次视频编辑，AI主播将自动识别语义并配上对应音调及表情。

“我们提供的系统，新华社只要每天在想要播报的新闻，过几秒钟生成一个完整的视频，中文、英文不同类型的新闻视频就可以马上出来。”陈伟表示。我们看到，AI主播的能力在不断进化，2月发布的“新小浩”开始加入肢体动作，让主播的表达方式更加多元化。

AI合成主播来自于搜狗AI分身项目的落地，基于多种模态识别融合的技术，包括语音、手写、唇语等维度的识别和模拟，仅需数个小时的视频资料就可以合成一个比较逼真的真人形象。

“逼真度”是衡量AI主播效果的一个重要指标。陈伟向机器之心表示，在初期，团队采用主观的方式来衡量AI分身的真实度，最近逐渐考虑采用一些客观标准，比如与真人视频每一帧画面进行比对。

目前，AI主播已经能够实现语音和唇部动作的同步。陈伟表示，更进一步，客户已经提出微表情等更细节层面的交互，比如挑眉、扭头时的眼神等。

陈伟介绍，今年内还将为AI主播推出交互能力。在图像层面，则会考虑2D+3D的技术融合，在语音合成的基础上引入自然语言理解的能力，让AI分身具备认知能力。

AI合成主播的价值体现主要在解决新闻播报领域的效率。新闻讲究快，能够自动生成播报视频的AI主播在时效性得到了保证；此外，AI主播的出现也让真人主播从大量繁琐的播报工作中解放出来，投入到访谈和深度新闻报道的项目里。

据介绍，搜狗的AI分身项目已经具备快速稳定落地的能力，从语音识别到合成、唇语识别，到图像方面的表情生成、肢体生成等，团队已经建立一套完整的流水线工作体系。在新闻主播领域之外，搜狗也在推进与更多行业和领域内的场景结合。

陈伟表示，项目的落地将从媒体扩大到客服、教育以及一些娱乐场景。比如正在进行中的AI合成老师。在线上公开课的场景里，老师多以单向输出内容为主。这种情况下，老师只需准备好教案和文稿，通过AI合成形象生成多个视频内容。

在语音界，科大讯飞和微软都在进行多模态识别技术的探索，具体到新华社项目的商业合作中，搜狗是凭借哪些差异化的优势受到认可？

陈伟认为主要体现在两个方面，一是项目实际效果，在和新华社沟通项目阶段，AI分身距离落地已经相对成熟，二是该项技术能够快速复制，实现推广到多人和多个领域的能力。“而其他公司距离搜狗的项目效果还有明显差距，多停留在实验室研究的状态”。陈伟介绍。

目前，新华社的AI主播主要在单个频道运营，如果想要普及到更大规模的媒体频道，高并发要求将对云端调度提出一定挑战。陈伟表示，目前搜狗提出两套方案，一套提供公有云服务；另外也支持部署在企业本地的私有云服务器上。“我们的服务在资源占用和实时性上都能满足要求。”

近日，一段“换脸杨幂版”的《射雕英雄传》在网上广泛流传，关于AI换脸和模拟真人技术的讨论上升到社会层面，比如将技术用于不正当目的的伦理问题。

陈伟对此回应，首先， “分身”与“换脸”（deepfakes）在技术层面有着本质的差别，“换脸实际上是把一个人脸映射到另一个人脸上，前期投入成本很大，但‘分身’一旦建模之后，只需要输入文字就可以生成视频，不需要任何表演成本在里面。”

在技术使用的规范问题上，陈伟表示， “搜狗选择和明确的公司、在明确的领域合作，尽量通过场景圈定技术的使用范围，这样的好处就是不会把技术滥用。”

推荐阅读

登录查看更多

相关内容

陈伟

关注 0

陈伟，搜狗语音交互技术中心高级总监，首席科学家，负责搜狗语音(识别、合成、声纹等)、图像(手写、唇语识别等)、机器翻译等多个技术方向，并主要负责搜狗知音OS、机器同传、语音听写、旅行翻译宝、录音翻译笔等多项软硬件产品的技术研发工作，致力于通过技术和产品的创新提升人工智能技术的实际落地能力，为用户提供优质的使用体验。

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知会员服务

58+阅读 · 2020年5月26日

人机对抗智能技术

专知会员服务

214+阅读 · 2020年5月3日

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

专知会员服务

59+阅读 · 2020年4月4日

【哈工大】基于抽取的高考作文生成

专知会员服务

37+阅读 · 2020年3月10日