首次开源！一行代码轻松搞定中英文语音识别、合成、翻译核心功能！

会员服务 ·

首次开源！一行代码轻松搞定中英文语音识别、合成、翻译核心功能！

2021 年 12 月 22 日 PaperWeekly

导读

要说生活里最常见的AI应用场景，语音合成与识别当属大家最为耳熟能详的场景之一了。

寻常到平时地图导航的播报、微信语音转文字、手机语音输入，以及小度智能音箱，都离不开语音技术的加持。

语音技术到底是怎么实现的？有哪些现成可用的开源代码可以快速集成到项目里？可以说是每一名开发者非常关心的问题。

那么，福利时间到了，今天这个集成了中英文语音识别、语音翻译、语音合成、声音分类能力，而且一行代码轻松试验效果的开源项目，你一定不能错过！

项目介绍

话不多说，先来看项目中给出的效果展示。

语音识别

输入音频 1

识别结果 1

I knocked at the door on the ancient side of the building.

输入音频 2

识别结果 2

我认为跑步最重要的就是给我带来了身体健康。

语音翻译（英译中）

输入音频

识别结果

我在这栋建筑的古老门上敲门。

语音合成

输入文本 1

Life was like a box of chocolates, you never know what you're gonna get.

合成音频 1

输入文本 2

早上好，今天是2020/10/29，最低温度是-3°C。

合成音频 2

可以看到，无论是中英文的识别，还是中英文的合成，这个开源项目都有不错的效果，特别的，项目中还包含了语音翻译能力，可以实现英文语音同传翻译为中文字幕，这个确实太强大了。

传送门：

GitHub 地址：

https://github.com/PaddlePaddle/PaddleSpeech

有读者肯定想问，这么强大的语音能力，是不是想要用起来比较麻烦？

不得不说，这个项目在易用性上真的也是考虑得非常周到。

安装测试效果

我们按照首页的引导：

一行命令安装：

一行命令快速开始使用：

这里，小编抱着试一试的态度，在本机上安装了这个项目，安装完成之后，先使用语音合成试一下。

生成的效果大家可以听一下~

然后，带着好奇心，我们再把合成的结果送到语音识别试一下，看看效果：

最终输出结果：

可以看到，这一套循环下来，效果非常不错！

除了出色的效果，易用的体验，我们再看看这个项目中还有什么宝藏可以挖掘，果然我们发现项目中还包含丰富的预训练模型，并且语音识别和语音合成均支持自定义训练。

丰富的预训练模型

语音识别包含声学模型和语言模型，详情如下：

语音合成主要包含三个模块：文本前端、声学模型和声码器。声学模型和声码器模型如下：

完善的文档教程

并且开源以来，收到开发者的广泛关注，已经有大量开发者投入到项目的建设中并且贡献内容。

真·干货满满！

别的不需要多说了，请大家访问GitHub亲自体验吧：

https://github.com/PaddlePaddle/PaddleSpeech

如果大家满意的话，欢迎点个小星星鼓励下我们的工程师！

直播课程，大牛带学

为了帮助大家了解更多语音技术前沿进展，玩转开源项目，12月21日-24日每晚20:15-21:30，由百度研究院深度学习实验室（美研）主任黄亮老师领衔，多位语音领域资深工程师为大家带来一套精品技术直播课，详解语音方向的核心技术。

扫码报名直播课，加入技术交流群

精彩内容抢先看

PaddleSpeech项目地址：

GitHub: https://github.com/PaddlePaddle/PaddleSpeech

Gitee: https://gitee.com/paddlepaddle/PaddleSpeech

登录查看更多

相关内容

语音识别

关注 753

语音识别是计算机科学和计算语言学的一个跨学科子领域，它发展了一些方法和技术，使计算机可以将口语识别和翻译成文本。它也被称为自动语音识别（ASR），计算机语音识别或语音转文本（STT）。它整合了计算机科学，语言学和计算机工程领域的知识和研究。

【干货书】《Pydon'ts：编写优雅的Python代码》，263页pdf

专知会员服务

93+阅读 · 2021年11月2日

《深度学习》圣经花书的数学推导、原理与Python代码实现

专知会员服务

325+阅读 · 2020年3月6日

新书《给数据科学家的Python技能秘籍》，87页pdf，简单上手实用！

专知会员服务

110+阅读 · 2019年12月26日

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

专知会员服务

36+阅读 · 2019年12月15日

【书籍】深度学习框架：PyTorch入门与实践（附代码）

专知会员服务

167+阅读 · 2019年10月28日

不出声也能命令Siri！康奈尔大学华人团队开发无声语言识别项链，中文英文都行

量子位

1+阅读 · 2022年2月16日

只要5秒就能“克隆”本人语音！美玉学姐不再查寝，而是吃起了桃桃丨开源

量子位

0+阅读 · 2021年10月7日

当GAN生成图像可以卡音效，这个Python包只需几行代码就能实现「音画同步」

机器之心

0+阅读 · 2021年3月24日

【Github】GPT2-Chinese：中文的GPT2训练代码

AINLP

52+阅读 · 2019年8月23日

python语音识别终极指南

AI100

13+阅读 · 2018年4月5日

非母语汉语学习过程中语音生成与习得研究

国家自然科学基金

0+阅读 · 2013年12月31日

多语言语音识别声学建模理论和容错识别新方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

融合语音产生机理与统计声学建模的层次化语音合成方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

用于非对称语料的语音转换函数训练算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于DBN协同建模的中文及跨语种语音结构事件检测研究

国家自然科学基金

0+阅读 · 2011年12月31日

InCoder: A Generative Model for Code Infilling and Synthesis

Arxiv

0+阅读 · 2022年4月17日

Multimodal Sentiment Analysis To Explore the Structure of Emotions

Arxiv

19+阅读 · 2018年5月25日

Explainable Recommendation: A Survey and New Perspectives

Arxiv

11+阅读 · 2018年5月13日

CapsuleGAN: Generative Adversarial Capsule Network

Arxiv

10+阅读 · 2018年2月17日

A Structured Self-attentive Sentence Embedding

Arxiv

24+阅读 · 2017年3月9日

VIP会员