央视AI唱作大热背后是怎样的技术？

2019 年 3 月 5 日 雷锋网

▲点击上方雷锋网关注

文 | 赵晨希

来自雷锋网（leiphone-sz）的报道

春节期间，央视新闻新媒体推出了一款交互产品《你的生活，AI为你唱作》，该款产品是央视新闻联合微软全新打造的移动互联网交互产品。《你的生活，AI为你唱作》融媒体交互产品利用了微软智能云，包括计算机视觉 (Computer Vision)、人脸识别（Face Recognition）、自然语言处理（NLP）、定制语音（Custom Voice）等业内领先的AI技术。

首先，在用户上传图片之后，计算机视觉和人脸识别等技术将对照片内容如环境、人物、颜色、表情、主题等进行分析；然后基于对照片的综合理解，智能歌词创作系统会自动谱写符合该照片内容的不同的歌词；最后，由语音合成技术模拟的央视主持人康辉或微软智能女声晓晓会根据歌词内容结合配乐伴奏进行生动的演唱。用户就这样，得到了自己专属定制的MP3歌曲。

根据官方数据统计结果，《你的生活，AI为你唱作》在央视新闻新媒体各平台上线仅2小时，用户参与量就超过了300万人次，截至2019年2月8日，在各平台阅读量3800万，利用AI声音创作视频阅读量3500万，微博相关话题阅读量2700万，AI相关产品在央视新闻各账号总阅读量已超过1亿。以上数据直观的显示出，该融媒体产品的受欢迎程度。

AI应用产品大规模爆发，正值新旧媒体交替，融合发展之际。借此节点，近日，雷锋网与其它两家媒体，一同对参与这个项目的微软多个团队进行了采访。

受访人:

李冕微软（中国）资深产品市场经理
韦福如微软亚洲研究院自然语言计算组资深研究员
李迎彤微软亚太研发集团云计算与人工智能事业部微软新视界创新总监
刘越颖微软亚洲互联网工程院语音组产品经理

AI唱作交互产品，背后的“故事”

在《你的生活，AI为你唱作》融媒体交互产品中，无论是央视主持人康辉，还是微软智能女声晓晓，均采用了微软深度神经网络语音合成技术。微软的深度神经网络语音合成服务，是基于端到端的神经网络声学模型和声音合成系统开发的。通过优化发音和韵律，该技术可以比传统的语音合成技术生成更逼真、更自然的人工智能声音。其中，康辉的声音更是用到了基于深度神经网络基础模型的定制化语音技术。微软的定制服务平台仅需要使用说话人的少量语音数据，就可以制作出高质量的不同风格的智能语音，而在这个项目中，康辉的说唱风格就是基于不到半小时的数据训练的。

而微软智能女声晓晓则是微软面向全球开发者和合作伙伴发布的一个通用声音。该声音可以通过微软认知服务平台（Azure Cognitive Services）提供的API接口进行实时调用。用户们可以直接将晓晓的声音用于智能助理、智能客服、智能汽车、智能朗读等场景中。据刘越颖介绍，一个有趣的现象是，在《你的生活，AI为你创作》产品中，晓晓声音的使用次数超过了康辉老师的次数。这也体现出大家对微软智能女声晓晓的喜爱。

微软语音组提到，在《你的生活，AI为你唱作》产品中，主要的语音技术特点为：

产品化的基于深度神经网络的语音合成技术
定制语音合成所需训练数据量更少（康辉的数据不到一个小时）。
深度神经网络的语音合成模型让声音更逼真和自然
语音合成可以扩展到多种说话的风格（比如这次的说唱风格）
平台化的定制语音让开发周期更短

同时，微软语音团队也提到了其它方面的特点：

灵活的部署方案：支持公有云部署；私有化部署；离线部署
多语言国际化支持：微软语音合成支持全球49个语言，近80个声音。深度神经网络支持中文和英文。
工业云计算平台：微软语音合成支持全球十几个数据中心；深度神经网络可以达到产品级的实时率；支持高并发。
全系列语音支持：微软语音可以提供整套的语音识别，翻译，语音合成等解决方案，可以支持智能客服，翻译等场景。利用微软语音解决方已经落地的场景如小米9手机王源声音的定制，ROOBO智能机器人、智能会议系统，微软翻译，微软听听文档等。

正如李迎彤所说，应用要瞬间触达到很多人的手机上。高并发且巨量的网络和计算需求，背后需要强大的云端基础设施做支持。

其实，微软与央视新闻的合作，源于CCTV团队春节前在微软新视界技术展示中心的一次参观。用李冕的话来说，此次合作偶然中带着必然，一方面，AI技术不断出现重大突破。例如去年9月份，微软率先发布了企业级定制语音合成平台，企业可以根据自己想要的音色来微软的平台上定制声音。去年12月份，微软在语音方面进一步实现重大的技术突破，即深度神经网络语音合成技术，一下子让原来的语音合成领域，很多不能做到的都可以实现了。具体而言，自然度方面可以更加像人类，语气、情感方面也得到很大的提升。

另一方面，在行业“转型”的大环境下，传统媒体正向新媒体融合发展。传统企业也需要与新兴技术、新兴产业结合，顺应时代的潮流，承接未来的要求。其实，无论是小米9王源定制版声音、央视主持人康辉定制版声音，还是去年微软小冰入驻小米智能音箱、华为手机，均体现了微软的全方位AI能力。未来无论是视觉、听觉，还是语音，在制造业、零售、媒体、教育、医疗、金融等诸多领域会都有相当广泛的应用场景。

特别是，此次与央视新闻合作的融媒体产品，是来自微软基础研究的自然语言部门，以及语音产品部门、智能云产品部门和市场部门的能人们跨部门组成项目组，在不到一个月的时间内与央视深度合作，实现了将用户输入图片以Rap的方式唱出来的即时体验，融合了多项微软的AI和云服务。

（雷锋网注：微软亚洲研究院自然语言计算组资深研究员韦福如）

从幕后走到台前，很多“Highlight”

提问：微软与央视新闻合作，背后有着怎样的考量？

李冕：最初当央视提出来合作需求的时候，我们考虑过几个方向。首先一定是用户体验要好。其次，尽管时间紧，但是当时我们想，微软在AI的各个方面都有相当多的技术积累，可以说是全栈式的，那么我们把步子就迈得更大一些。其实这个项目里用到了很多的不同AI技术，如图像识别、自然语言处理、语音识别、语音合成等，以及微软智能云的能力。

所以，最后我们决定在春节这个特殊的时间节点，和CCTV一起推出来给广大的用户、网民们一个比较好玩和温暖的产品体验。同时，对于微软内部而言也是检阅AI和云各部门快速协同和落地能力的机会，所以当时我们就去做了这个项目。

提问：整个合作过程有哪些难点？

韦福如：从自然语言方面来讲，用户对歌词的要求是什么，有一些不同的地方。因为歌词讲究更接近生活，朗朗上口。输入部分，要从图片里获得尽可能多的信息。如最基本的要知道图片中是什么环境，有什么物体，有没有人，有几个人，大概年龄等等。还有一些更细致的内容，比如，人的性别，表情如何，颜色背景等等……我们需要把这些图像处理的结果映射到歌词生成用到的关键词，然后再用基于深度学习的歌词创作模型一句一句生成整首歌词。但事实上，图片识别的一般结果从数量和类别上都很难满足歌曲作词所需要的想象力要求，这就需要我们把这些信息再处理到更细致的关键词上去，然后从这些关键词再生成歌词。一般歌词有十来句，甚至一二十句，所以需要做更多的处理。

同时，还需要基于很多数据。数据方面大家很容易想到的是歌词，我们抓取了很多歌词。用户从生成的歌词中应该感受到了中国传统文化的气息，这其中我们使用了宋词去训练模型。另外一个难点，大家熟悉的歌词或者宋词，整体上可能感物思人、伤春悲秋的比较多。但是春节期间，我们希望大家都开开心心。所以在这方面我们也在算法上做了调整。比如我们会尽可能让算法生成积极一些的句子，另外包括有一些多音字，也会做相应处理。所以从技术上来讲，一个是长期的积累，包括技术和文化；第二个是针对这样特殊的应用，做一些细节上的适应调整。

当然，人类的创造能力是很强的，机器的优势则更多表现在记忆。比如韵律，一般人不太容易掌握，但是对于机器和算法来说，则很容易做到。基础研究上还有很多很长的路要走，AI在创造内容方面的能力还是有限的。

提问：不管TTS（Text to Speech）也好，还是图象识别也好，遇到的最大困难是什么，怎样解决的？

韦福如：比较难的是，通过图像输出给出歌词还是太抽象了。比如，它只知道里面有人脸，只知道里面有人，或者只知道里面有几个人。这种情况下，去写歌词非常难，所以我们需要把这些信息处理到更细致的关键词上去，然后从这些关键词再生成歌词。歌词有十来句，甚至一二十句，实际上要做更多的处理。

李冕：我们的场景有点像是小学语文考试里面的看图作文，给你一张图。当然我们这个是彩色图，那个是一张图或者是两张图，然后让你编出一个作文来。我们做的有点像看图做诗，整条链路下来，中间的坑点其实是挺多的。

提问：可以重点介绍一下微软在阅读理解方面的优势吗？

韦福如： SQuAD机器阅读理解数据集，最近两年特别火。在工业界和研究领域都得到了广泛的关注。

2018年1月，微软亚洲研究院提交的模型在EM值上以82.650的最高分率先超越人类分数82.304。9月份，我们的模型在EM值和F1值两个维度上，以85.954和91.677的分数首次全面超越人类在SQuAD数据集上的表现。2019年1月，基于BERT开发的最新系统又在SQuAD2.0和交互式、多轮阅读理解数据集CoQA上持续领先。

提问：人工智能的“表达方式”，毕竟不同于人类。人类具有感情、思维，在说话的过程中兼具情感的表达，同时也是一个自然人性格、个性的重要体现方式。情感的表达体现在算法上，是怎样一个过程？微软TTS在机器情感输出方面有何看法？

刘越颖：机器的情感主要由两方面决定：数据和算法。微软TTS（Text to Speech）在数据采集时，与以往不同，更注重情感和意思的表达。同时，基于深度神经网络TTS的算法具有更强的学习能力，可以更好的还原情感，具有更高的自然度。最后，我们加入了多情感和多风格的声学建模，并在合成中进行精确控制。

提问：中文表达与英文等存在语种差异。对于人类而言，换气、停顿、同音字、断句的判断，是很容易的过程，对于NLP就比较难。请问，微软在“仿人类”语言的细节处理方面有什么经验以及进展？

刘越颖：微软在语音方面已经做了很多年。包括从最开始的参数合成、单元拼接，到这次的深度神经网络的语音合成，都是一步步积累下来的。此次的深度神经网络，跟原来不一样。传统的做法可以理解为每个音都拆成不同的单元，通过比较大量的音节单元的积累，就可以把不同的音节单元拼接起来，拼成一句话，但那种合成是比较机械，拼接过程中不圆顺的地方就会有机器感，或者是不太自然的地方。

但是深度神经网络语音合成，是一个端到端的语音合成系统，包含端到端的声学和韵律建模，以及声音合成模型。可以克服传统语音合成系统的局限性，优化口语和唱歌中的重音，语调和节奏，大幅提升了语音合成的表现力，具有更自然的韵律和更丰富的情感。

中文表达主要涉及停连、重音、语气、节奏，以及对内容的理解。微软深度神经网络TTS可以逼真地还原人类的换气声音，使得语音合成更具有人类的特征。对于断句、停顿、多音字，微软针对不同语言要素，进行有针对性的建模，然后利用端到端的声学建模，从真实语音中学到最适当的表达方式。

提问：除了语音技术，还用到其它哪方面的能力？

韦福如：我们会用很多不同的图像识别技术，有数十万个标签和一百多个类。有几张人脸时，能知道这个人是开心的，还是处于怎样的状态。以及图像中人物的性别，我们需要拿这些信息去创作歌词。拿到图像识别信息之后，首先要把这些信息，大概归类到一些歌词的关键词上。第二步是再把歌词一句一句生成出来，这个时候就用到序列对序列的生成模型。

提问：此次合作中，存在的商业潜力是什么？

刘越颖：现在是多元化、个性化的时代，每个产品或者是公司都希望有一个自己的形象。这个形象不仅仅是可以基于图像层面的，也可以是基于声音的。未来声音定制会是一个趋势。每个企业、设备、个人都会有一个独特的人工智能定制声音，让语音融入生活的更多角落。此外，深度神经网络可以降低训练所需的录音数据数量，这样就会让声音定制更加成为可能，这是一个很好的合作点。

提问：此次合作，微软在云计算方面有哪些部署？

李迎彤：从云计算的角度来讲，就像日常工作生活中用到的电，大家都用电，但是并不会去特别留意它的存在。我们发展云计算也是一样，要为大家提供最好的性能，最好的体验。目前，微软在中国有大量云计算的基础设施投入，这次我们就运用了云平台数据库和网络服务。微软目前在中国建有四个数据中心分别位于北京、上海。通过云端网络技术，对不同地域的请求进行快速响应。

另外，我们覆盖全中国的内容分发网络，可以保证用户在体验的过程中，不会受到网络带宽的影响。《你的生活，AI为你唱作》在央视平台的推出，是面向全国范围甚至更广的用户。所以我们要保证这些受众都能够有一个好的、快速、高效的体验。这一定是因为我们在基础设施上做了大量的投入，才能做到这样的保障。

李冕：我们做了很多CDN的加速，我们的机房离主要的节点都很近，总体的速度还是很快的。从上传的速度，包括并发的响应上，在后台看CPU跳跃的数字，我们觉得还是非常安心的。

（雷锋网注：微软亚洲互联网工程院语音组产品经理刘越颖）

走过青铜、白银，迎来“黄金时代”

比尔·盖茨曾说过，“语言理解是人工智能皇冠上的明珠”。NLP的历史几乎与计算机和人工智能AI的历史一样长。换句话说，计算机诞生那一刻，人工智能AI也应运而生。人工智能AI研究最早的领域就是机器翻译以及自然语言理解。

微软亚洲研究院自1998年创建以来，就给予NLP足够的重视。微软亚洲研究院官方数据显示，截止2018年11月，共计发表100余篇ACL大会文章，出版《机器翻译》和《智能问答》两部著作，培养了500名实习生、20名博士和20名博士后。

微软开发的NLP技术，包括输入法、分词、句法/语义分析、文摘、情感分析、问答、跨语言检索、机器翻译、知识图谱、聊天机器人、用户画像和推荐等，已经广泛应用于Windows、Office、Bing、微软认知服务、小冰、小娜等微软产品中。与创新技术组合作研发的微软对联和必应词典，也已经为成千上万的用户提供服务。

21年的时间里，无论是微软亚洲研究院，还是AI行业。走过荒芜、贫瘠的土地，逐渐迎来辛苦耕种后的种种“收获”。那么，对于现在抑或将来，微软TTS正在做着哪些努力？

提问：微软近期在TTS领域有什么新论文或者新突破，可以介绍一下，突破点以及对行业的影响？

团队总结：2018年12月，微软语音在微软Azure云上发布了创新性技术突破——端到端的深度神经网络语音模型，将语音合成带入一个高保真的新阶段（参考英文版blog）。深度神经网络语音合成技术让语音合成的的质量以及语音模型的制作又上了一个新的台阶。我们可以感受到语音更自然；训练模型需要的数据量更少；支持语音模型也快速扩展到多种说话的风格。

微软语音合成技术已经在世界顶级期刊和会议发表了多篇论文。

LEARNING LATENT REPRESENTATIONS FOR STYLE CONTROL AND TRANSFER IN END-TO-END SPEECH SYNTHESIS, https://arxiv.org/pdf/1812.04342.pdf, accepted by ICASSP2019.

Neural Speech Synthesis with Transformer Network, https://arxiv.org/pdf/1809.08895.pdf, accepted by AAAI 2019.

A New Glottal Neural Vocoder for Speech Synthesis, https://www.isca-speech.org/archive/Interspeech_2018/abstracts/1757.html, published in INTERSPEECH2018.

提问：AI语音和自然语言处理是否存在技术、产品周期长、落地比较难的情况，从实际的落地情况来看，微软在这方面有什么进展？未来有哪些努力的方向？

韦福如：我自己不觉得NLP技术落地有多么难，实际上大家每天都在用，比如说搜索、输入法和翻译，都会用到自然语音处理的技术。当然，单纯靠自然语言处理的技术驱动的面向大规模用户的应用和服务，目前还不是特别成熟，这个主要还是有需求和场景，要能解决用户的实际问题。

反过来看，现在机会在NLP，不管是从研究上还是外部的市场机会。包括很多VC也在关注。从研究上来讲，2018年大家说是NLP之年，就是自然语言处理之年。已经有很好的一些进展，比如谷歌的BERT这样的预训练模型启发了新的研究课题，让通用语言理解成为可能且值得深入探索和重点投入的研究方向。目前，在自然语言理解的任务上，预训练模型很好地缓解了标注数据少和跨领域的问题，而这正是实际应用中遇到的实际问题。

落地的机会也很多，在通用的理解之后，能够比较快速地去适配到一些特定的领域。然后在标注数量比较少的情况下，也可以做到不错的结果，这都是在实际中遇到的问题。我认为接下来NLP不管是研究上，落地上，还是从市场上都应该是有非常多机会的。

刘越颖：传统的AI语音合成技术存在产品周期长的问题。因为声音采集的数量大，时间久，成本高。经过微软语音团队多年来的研究和技术更新，目前已经率先实现了平台化、产品化的语音合成服务。首先，深度神经网络模型可以大大降低声音采集的数量和成本，并且在自然度和保真度上很好的还原人声。同时，微软提供了平台化的定制语音服务，用户可以自定义语音合成数据和模型，让开发周期更短，适合更多的个性化应用场景。所以，未来人工智能语音会有更多的落地场景，也为用户带来更丰富的体验。

目前，微软语音产品已经被应用于微软的各类人工智能产品和平台上，包括了微软小冰，微软小娜（Cortana)，Windows，Skype，认知服务（Cognitive Service），微软翻译等。

此外，微软语音产品也积极与第三方企业在更多场景上合作，包括智能助理、智能客服、智能汽车、智能朗读等领域。除了这次CCTV的项目外，微软语音和小米手机合作，在最新的小米旗舰机Mi9的手机内，定制了王源的明星声音。通过语音的桥梁，拉近了粉丝与爱豆的距离。未来声音定制会是一个趋势。每个企业，设备，个人都会有一个独特的人工智能定制声音，让语音融入生活的更多角落。

提问：未来AI方向有哪些机会？

李冕：我觉得AI的方向有三个机会。一个是，注入式AI，就是把AI技术融入到现有的产品和服务里。

第二个，有很大机会的是知识挖掘，例如搜索引擎可以看作是基于全网数据的通用知识库的挖掘，已经相对成熟。但在专业知识库，比如现在大多数企业内部，有很多数据孤岛没有打通。所以我们认为自然语言处理现在有能够落地的点。

第三个，是提供机器学习的工具和平台之上的高价值产品和服务。比如，几个人攒个小团队，也能做出人脸识别的产品。但并没有多少公司能提供AI落地到生产场景之后对业务的进一步响应。例如，高铁的闸机需要7×24小时要响应数据，这部分也可以叫做AI数据推理，应该是AI技术供应商能提供的增值服务，这样才能帮助各个传统行业的企业客户能够真正将AI落地，并发挥更大的价值。

- END -

◆ ◆ ◆