合创共赢英特尔助力腾讯云小微赋能产业升级

2021 年 1 月 27 日 机器之心

机器之心发布

作者：华仔

英特尔宣布已于近日开始生产的第三代英特尔®至强®可扩展处理器（代号“Ice Lake”）将于2021年第一季度实现规模量产。

人工智能的影响力正在不断加深。如今，越来越多企业加入到了数字化转型的道路上，这场变革让行业的智能化水平不断提高。在新基建的引导下，人工智能技术逐渐成为数字经济发展的新动能，同时也为企业的转型升级注入强大动力。数据显示，到 2021 年将会有 75% 的企业应用集成人工智能。

AI 语音是人工智能技术最广泛的应用，它架起了人类与数字世界之间最简单有效的沟通桥梁。在这样的背景下，越来越多的科技企业与初创企业进军智能语音市场，而腾讯作为人工智能创新的引领者，打造出云小微智能语音与视频服务接入平台，全方位赋能行业转型。

为了最大化释放云小微平台的价值与能力，腾讯与英特尔合作，共同构建定制化 Parallel WaveNet（pWaveNet）声码器模型解决方案以及定制化 WaveRNN 声码器模型解决方案，对平台进行深度优化，不仅为云小微提供了突出的语音合成性能，而且还有效降低了用户总拥有成本（TCO），让更多企业可以体验到先进的智能语音服务。

产业新风智能语音的星辰大海

AI 正在变得无处不在。在新一轮产业变革中，人工智能技术发挥了愈加重要的作用，作为加速数字化转型实践的核心驱动力，人工智能的发展对社会经济和人类生活都产生了十分深远的影响。

人工智能与场景结合赋能产业升级，在这个过程中，越来越多的 AI 应用出现，其中，智能语音的增长最为突出。

近年来，随着实体经济与数字经济的深度融合，人工智能技术也在越来越多的行业中落地，成为行业数字化升级的基石。作为人工智能最常见的应用，企业通过 AI 语音交互技术与自身业务发展及商业模式相结合，开发出更具视觉效应的 IP 形象。这些 AI 助手成为企业的“数字员工”，来帮助企业更好地服务用户。

人工智能在各行业加速落地，而各新兴智能产品企业也在基于智能语音合成技术，来研发各种智能语音，如语音导航、智能客服、有声读物、智能语音输入与识别等。越来越多的智能语音出现，让人工智能市场更加繁荣，也推进着 AI 创新的发展。数据显示，我国智能语音市场规模在 2021 年可达 194.8 亿元。

智能语音应用打通了人机交互的闭环，可以让用户获得更多生活上的便利。然而在实际应用中，智能语音应用也逐渐显现出一些问题。一方面，智能语音产品越来越多，但能力参差不齐，操作方式也不同，“智能”反而成了一种累赘；另一方面，智能语音应用与现实场景的结合往往会面临很多额外的“干扰项”。比如在智能交通领域，车载语音识别就会受到口音、噪声、场景化语音等多个变量的影响，从而影响识别的准确度。

要解决这些问题，一是统一研发平台，二是提高平台语音合成技术能力。基于此，腾讯推出云小微智能语音与视频服务接入平台，通过结合全栈语音语义 AI 能力和腾讯云服务，不仅能够为用户输出高品质 AI 平台能力，还可以依托腾讯丰富的产品线和大数据能力，帮助用户获得整合腾讯中台能力的丰富场景应用方案。

联合定制腾讯云小微赋能产业升级

腾讯云小微是一个以基于神经网络声码器模型的 TTS（Text To Speech）合成技术为核心能力的智能语音与视频服务接入平台，它能够通过端到端声学模型，来实现文本到语音的高质量转化与表达。

TTS 语音合成技术是人机沟通的关键性技术之一，它可以将外部输入的文本或计算机自己产生的信息，通过自然语言表达出来。在这个过程中，声码器模型十分关键，它可以通过计算分析来输出相应的语音波形，所以不同声码器模型的选用对语音合成效果也有着不同的影响。

常见的语音合成声码器模型，如 WaveNet，是相对比较成熟的技术，其生成的语音质量接近自然人声。不过，在实际运用中，传统 WaveNet 模型也存在着诸多不足。一是 WaveNet 模型结构十分复杂，对计算力要求很高；二是 WaveNet 模型语音合成时间较长，在实际交互场景中难以满足用户对实时性的要求；三是随着智能语音应用场景的普及，智能语音合成平台需要对更多设备提供支持，工作负载加大，声码器模型的语音合成工作效能有待提升；四是对于企业而言，扩容带来的成本增加。

基于此，腾讯与英特尔合作，采用全新第三代英特尔至强可扩展处理器作为核心算力引擎，共同构建了定制化 pWaveNet 声码器模型解决方案及定制化 WaveRNN 声码器模型解决方案，以此实现云小微平台能力最大化。

Parallel WaveNet模型架构图

定制化 pWaveNet 声码器解决方案，在 WaveNet 模型的基础上引入“概率密度蒸馏”技术，利用一个已经训练好的 WaveNet 模型来指导实施生产的网络进行预测，这样不仅可以摆脱依赖于先前已生成点作为输入条件的顺序生成模式，还能够一次性生成整个序列上的输出采样点，大幅减少语音合成时间。

不仅如此，腾讯还在定制化 pWaveNet 模型中将网络一维卷积运算转换为几个通用矩阵相乘的操作，以此减少模型计算量。同时，引入 Open-MP 并行机制，充分发挥定制化 pWaveNet 模型中并行计算的优势，在不影响语音质量的前提下，有效提高语音合成速度。

WaveRNN模型架构图

定制化 WaveRNN 声码器解决方案，专为逐渐增加的工作负载而设计。其主体部分依旧是 WaveRNN 模型中具有双 softmax 层的单循环网络的基本结构，不过却将该网络原始输入中的线性部分分离出来，并进行 LPC 预估处理，以此来大幅降低网络处理难度，有效提高整体计算速度。与此同时，定制化 WaveRNN 声码器解决方案还引入了稀疏化技术，来减少带宽占用，降低网络整体计算时间，并在多核环境中平衡计算力，增强模型运行的稳定性。

第三代英特尔®至强®可扩展处理器为定制化 pWaveNet 声码器解决方案及定制化WaveRNN 声码器解决方案提供强大底层支撑。新一代英特尔至强可扩展处理器不仅具备更多的内核与线程，在为云小微提供强大算力的同时，也满足其对吞吐量的需求。

更值得一提的是，第三代英特尔®至强®可扩展处理器内置的BF16指令集在整个方案中起到了十分关键的作用，大幅提升AI能力，在两种不同定制化的拓扑结构上将推理性能分别提高 1.89 倍和 1.54 倍。并与英特尔 AVX-512 指令一起，在英特尔 oneAPI 深度神经网络库的配合下，加速硬件效率。再配合新一代处理器配备的更大缓存，能够有效提升整体处理性能。

合创共赢英特尔构建智能生态圈

世界正在朝着更加智慧化的方向前进，英特尔开启以数据为中心的转型，以全面的软硬件实力来帮助企业实现智能化部署。同时，英特尔也在与越来越多的合作伙伴一起，借助自身深厚的技术积累和丰富的产品组合，共同开发新的智能应用，加速AI创新发展。

云小微平台就是英特尔与腾讯在AI领域联合创新的成果，事实上，在去年的腾讯全球数字生态大会上，英特尔与腾讯达成了一系列创新合作，不仅全面升级了腾讯与英特尔联合实验室，还联合开发并推出腾讯云首款星星海四路服务器。在软件层面，腾讯以英特尔AI软件栈优化为基础上线了Open Vino™推理加速引擎，也成为业内第一个支持Analytics Zoo 的公有云厂商。

在智能语音领域，英特尔还将与腾讯开展更加深度的合作，结合英特尔先进的软硬件技术，将智能化应用拓展到更多的业务场景中去。不仅如此，双方还会在语音识别、声纹识别等其他AI领域共同开发，赋能各行业智能化升级，并不断扩大智能生态圈。

在更大范围内，包括人工智能领域，英特尔凭借新一代至强平台强大的基础设施能力，也将与腾讯一起在数据上云、高性能计算、数据安全等方面为用户提供敏捷、高效、稳定的数字服务，帮助用户更快进行业务升级，并联合共建广泛的数字生态圈。

英特尔正在与合作伙伴共同推进技术进步。从云小微平台，英特尔与腾讯的联合创新让智能语音合成变得有效且高效；在云小微平台之外，可以看到的是更加繁荣的人工智能市场以及英特尔全力构建的数字生态圈。