GPU加速语音识别、语音合成,英伟达亲自告诉你怎么做

2021 年 12 月 25 日 机器之心


让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音已成为未来最被看好的人机交互方式,语音比其他的交互方式有更多的优势。

目前,语音服务存在于各种场景中,包括实时会议记录、视频实时直播字幕、呼叫中心语音质检、实时会议记录等。想要实现不同的语音服务,这涉及到方方面面的技术,例如,在进行实时会议记录任务时,需要将会议中的音频实时转写为文字辅助会议记录工作,同时适用于电视会议等远距离场景,这涉及到自动语音识别(ASR)技术。

除此以外,我们在日常生活中,也经常遇到需要将文本转化成语音的技术(TTS) ,该技术可以通过自然逼真的智能语音,让机器拥有「说话」的能力。

那么,有没有一种技术,可以同时进行自动语音识别、语音合成技术?

今年,英伟达发布了 NVIDIA Riva,这是一种现成的语音服务,可以轻松部署在任何云或数据中心。NVIDIA Riva的设计旨在帮助用户轻松、快速地访问会话 AI 功能,实现开箱即用,通过一些简单的命令和 API 操作就可以快速构建高级别的语音识别服务。该服务可以处理数百至数千音频流作为输入,并以最小延迟返回文本;还能快速构建高级别的对话式 AI 服务。 

NVIDIA Riva是一个使用了 GPU 加速,快速部署高性能会话式 AI 服务的 SDK,可用于快速开发语音 AI 的应用程序。Riva SDK 在 NVIDIA GPU 上运行,在高吞吐量水平下提供最快的推断响应。

目前,NVIDIA Riva整合了 ASR 和 TTS 等智能算法引擎,用户可以使用这些功能进行科学研究。

为了深入了解和快速上手 NVIDIA Riva 在构建语音方面的应用,英伟达联合机器之心推出「详解对话式AI应用服务框架NVIDIA Riva」三期线上分享,通过英伟达专家的理论解读和实战经验分享,向开发者展示如何使用 NVIDIA Riva 快速构建企业级 ASR 语音识别助手、快速构建企业级 TTS 语音合成助手、使用 Python 快速构建基于 NVIDIA Riva 的智能问答机器人。

「详解NVIDIA Riva」三期分享安排如下:


本次系列分享嘉宾是英伟达开发者社区经理李奕澎(Yipeng Li),拥有多年数据分析建模、人工智能自然语言处理开发经验;在自动语音识别、自然语言处理、语音合成等对话式 AI 技术领域有丰富的实战经验与见解;曾开发法律、金融、保险文档中基于实体抽取的智能问答系统;曾开发基于 NLP 知识抽取,KG 知识图谱的建立的科研文档智能检索系统。


12月19日19:30-21:00

第一期 : 使用 NVIDIA Riva 快速构建企业级 ASR 语音识别助手


自动语音识别(ASR)是会话式人工智能的一部分,旨在获取原始音频并将其准确快速的转换为文本。它广泛的应用于各种各样的领域,包括呼叫中心的人工代理,虚拟助理的语音接口,视频会议的现场字幕以及无人驾驶汽车的语音交互系统等。

NVIDIA Riva 是一个使用 GPU 加速,能用于快速部署高性能会话式 AI 服务的 SDK,可用于快速开发语音 AI 的应用程序。Riva 的设计旨在帮助开发者轻松、快速地访问会话 AI 功能,开箱即用,通过一些简单的命令和 API 操作就可以快速构建高级别的语音识别服务。该服务可以处理数百至数千音频流作为输入,并以最小延迟返回文本。 

本次分享主要面向有会话式人工智能开发需求的开发者,将主要介绍以下内容:
  • 自动语音识别简介

  • NVIDIA Riva介绍与特性 

  • 快速部署NVIDIA Riva

  • 启动NVIDIA Riva客户端快速实现语音到文字的转录

  • 使用Python快速搭建基于NVIDIA Riva自动语音识别服务应用


直播时间: 北京时间12月29日19:30-21:00

直播间地址: https://jmq.h5.xeknow.com/sl/3bpGtM (点击阅读原文直达)

报名方式: 进入直播间——移动端点击底部「观看直播」、PC端点击「立即学习」——填写报名表单后即可进入直播间观看。

直播交流群 :每次课程均有答疑环节,识别下方二维码加入交流群。
如群已超出人数限制,请添加其 他小助手: syncedai2、syncedai3、syncedai4 或 syncedai5,备注「Riva」即可加入。



点击阅读原文,立即报名。

登录查看更多
0

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
【课程】牛津大学&DeepMind《深度学习自然语言处理》课程
《人工智能芯片基准测试评估方法》行业标准
专知会员服务
80+阅读 · 2022年2月20日
多语言语音识别声学模型建模方法最新进展
专知会员服务
33+阅读 · 2022年2月7日
FPGA加速深度学习综述
专知会员服务
68+阅读 · 2021年11月13日
【ICML2020Tutorial】机器学习信号处理,100页ppt
专知会员服务
112+阅读 · 2020年8月15日
初创公司如何训练大型深度学习模型
InfoQ
0+阅读 · 2021年12月10日
英伟达给你工具,用Python识别车辆信息
机器之心
0+阅读 · 2021年12月8日
Colab 免费提供 Tesla T4 GPU,是时候薅羊毛了
机器之心
10+阅读 · 2019年4月25日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
14+阅读 · 2020年1月27日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员