业界 | 百度推出 AI 转录应用 SwiftScribe，由 DeepSpeech 2加持 - 专知

会员服务 ·

0

业界 | 百度推出 AI 转录应用 SwiftScribe，由 DeepSpeech 2加持

2017 年 3 月 14 日 AI科技评论

AI科技评论消息，百度硅谷研究院于 3 月 14 日推出了一款基于人工智能的转录应用 SwiftScribe。

根据 SVAIL 的官网消息，AI科技评论了解到，SwiftScribe 基于百度于 2015 年年底推出的语音识别产品 Deep Speech2，其神经网络通过输入数千小时的标记音频数据，从中学习特定的单词与词组。

用户目前在转录过程中面临的最大问题在于不连续性（discontinuity），针对这一问题，除了 ASR 技术外，百度团队在快捷键与人机交互方面进行创新。

「通过百度最先进的语音识别技术与灵活的编辑工具，SwiftScribe 能够帮助人们快速轻松地转录语音记录，提升生产力并简化工作流程。」

而这也是百度 SVAIL 所大力推崇的优势所在：在用户转录及编辑的过程中，系统能够从人身上「偷师」，并以此提升自己的转录水平。「这样的端到端训练让 SwiftScribe 得以区别于目前市面上的其它产品。」

如果想要精确度更高的转录效果，一小时的音频需要花费 4-6 小时进行转录，每分钟收费一美元，而采用 SwiftScribe，将会缩短 40% 的转录时间。

百度推出 SwiftScribe 主要面向经常需要使用转录功能的企业及个人，甚于它的使用广泛性，SwiftScribe认为能够让一大批用户受益，包括医学健康、法律部门、商业媒体等领域。

目前百度开放了 30-50 个测试名额，具体可参看 http://swiftscribe.ai/ 或发邮件到 swiftscribe@baidu.com 了解。

既然是基于 Deep Speech 而构建的转录系统，让我们和AI科技评论一同简单回顾下百度的语音识别研发历程：

在2014年底，百度团队发布了第一代深度语音识别系统Deep Speech，系统采用了端对端的深度学习技术，当时实现了提高嘈杂环境下的英语识别准确率，实验显示比谷歌、微软及苹果的语音系统的出错率要低10%。

而在2015年8月，百度研究院新增了汉语的识别，准确率高达94%。这也让端到端的深度学习算法成为语音识别提升最重要的手段之一。

9月份的百度世界大会上，吴恩达也在期间展示了新一代的百度语音识别技术，验证在较为嘈杂的情况下，机器识别已经超过人类。

2015年年底，百度研究院又发布了论文推出Deep Speech2，它能够通过深度学习网络识别嘈杂环境下的不同语言，所应用的HPC技术将识别速度提升了7倍。

根据研究院的官方消息，HPC技术目前已在今年2月成功应用于深度学习中。、

关于百度在语音识别的研发成果，敬请关注AI科技评论的后续报道。

AI科技评论招聘季全新启动！

很多读者在思考，“我和AI科技评论的距离在哪里？”，答案就是：一封求职信。

AI科技评论自创立以来，围绕学界和业界鳌头，一直为读者提供专业的AI学界，业界，开发者内容报道。我们与学术界一流专家保持密切联系，获得第一手学术进展；我们深入巨头公司AI实验室，洞悉最新产业变化；我们覆盖A类国际学术会议，发现和推动学术界和产业界的不断融合。

而你只要加入我们，就有机会和我们一起记录这个风起云涌的人工智能时代！

如果你有下面任何两项，请投简历给我们：

＊英语好，看论文毫无压力

＊计算机科学或者数学相关专业毕业，好钻研

＊新闻媒体相关专业，好社交

＊态度好，学习能力强

简历投递：lizongren@leiphone.com

登录查看更多

0

相关内容

人工智能如何用于抵抗COVID-19？Mila这份《AI against COVID-19 》PPT

专知会员服务

48+阅读 · 2020年5月17日

【微众银行】联邦学习白皮书_v2.0，48页pdf，

【微众银行】联邦学习白皮书_v2.0，48页pdf，

专知会员服务

170+阅读 · 2020年4月26日

TensorFlow开发者峰会2020 Keynote，TF2及其庞大的科研、工业生态圈

TensorFlow开发者峰会2020 Keynote，TF2及其庞大的科研、工业生态圈

专知会员服务

26+阅读 · 2020年3月20日

【北邮-腾讯AI】自监督学习音视觉说话人认证，Self-supervised learning for audio-visual speaker diarization

【北邮-腾讯AI】自监督学习音视觉说话人认证，Self-supervised learning for audio-visual speaker diarization

专知会员服务

26+阅读 · 2020年2月16日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

【阿里巴巴】 AI编译器，AI Compiler @ Alibaba，21页ppt

【阿里巴巴】 AI编译器，AI Compiler @ Alibaba，21页ppt

专知会员服务

45+阅读 · 2019年12月22日

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

专知会员服务

28+阅读 · 2019年11月8日

《百度大脑AI技术成果白皮书》（2019版）发布，48页PDF，百度研究院编

《百度大脑AI技术成果白皮书》（2019版）发布，48页PDF，百度研究院编

专知会员服务

38+阅读 · 2019年11月7日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

43+阅读 · 2019年11月5日

2019年人工智能行业现状与发展趋势报告，52页ppt

2019年人工智能行业现状与发展趋势报告，52页ppt

专知会员服务

124+阅读 · 2019年10月10日

2019年，这8款自动语音识别方案你应该了解！

2019年，这8款自动语音识别方案你应该了解！

AI前线

8+阅读 · 2019年9月13日

2019语音技术报告：语音经济规模将超移动应用

2019语音技术报告：语音经济规模将超移动应用

新智元

9+阅读 · 2019年7月23日

Google Brain推出语音识别新技术、面部表情识别助力商业再发展|AI一周学术

Google Brain推出语音识别新技术、面部表情识别助力商业再发展|AI一周学术

大数据文摘

4+阅读 · 2019年4月29日

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

AI研习社

6+阅读 · 2019年4月24日

谷歌用新的语音数据扩增技术大幅提升语音识别准确率

谷歌用新的语音数据扩增技术大幅提升语音识别准确率

雷锋网

7+阅读 · 2019年4月24日

python语音识别终极指南

python语音识别终极指南

AI100

13+阅读 · 2018年4月5日

快讯 | Facebook开源语音识别工具包wav2letter

快讯 | Facebook开源语音识别工具包wav2letter

大数据文摘

6+阅读 · 2018年1月2日

搜狗推出唇语识别技术提升远场语音交互

搜狗推出唇语识别技术提升远场语音交互

智东西

3+阅读 · 2017年12月14日

Mozilla发布开源语音数据库和语音识别模型

Mozilla发布开源语音数据库和语音识别模型

Python程序员

3+阅读 · 2017年12月1日

一文读懂语音识别史

一文读懂语音识别史

机械鸡

9+阅读 · 2017年10月16日

Equalization Loss for Long-Tailed Object Recognition

Equalization Loss for Long-Tailed Object Recognition

Arxiv

5+阅读 · 2020年4月14日

The Theory behind Controllable Expressive Speech Synthesis: a Cross-disciplinary Approach

The Theory behind Controllable Expressive Speech Synthesis: a Cross-disciplinary Approach

Arxiv

4+阅读 · 2019年10月14日

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

Arxiv

7+阅读 · 2019年4月18日

Learning latent representations for style control and transfer in end-to-end speech synthesis

Learning latent representations for style control and transfer in end-to-end speech synthesis

Arxiv

5+阅读 · 2019年2月14日

Automatic Summarization of Natural Language

Arxiv

3+阅读 · 2018年12月18日

Improved Speech Enhancement with the Wave-U-Net

Arxiv

8+阅读 · 2018年11月27日

Reconstruction Network for Video Captioning

Arxiv

5+阅读 · 2018年3月30日

TBD: Benchmarking and Analyzing Deep Neural Network Training

Arxiv

3+阅读 · 2018年3月16日

State-of-the-art Speech Recognition With Sequence-to-Sequence Models

Arxiv

7+阅读 · 2018年1月18日

Arbitrarily-Oriented Text Recognition

Arxiv

3+阅读 · 2017年11月12日

VIP会员

相关主题

相关VIP内容

人工智能如何用于抵抗COVID-19？Mila这份《AI against COVID-19 》PPT

专知会员服务

48+阅读 · 2020年5月17日

【微众银行】联邦学习白皮书_v2.0，48页pdf，

【微众银行】联邦学习白皮书_v2.0，48页pdf，

专知会员服务

170+阅读 · 2020年4月26日

TensorFlow开发者峰会2020 Keynote，TF2及其庞大的科研、工业生态圈

TensorFlow开发者峰会2020 Keynote，TF2及其庞大的科研、工业生态圈

专知会员服务

26+阅读 · 2020年3月20日

【北邮-腾讯AI】自监督学习音视觉说话人认证，Self-supervised learning for audio-visual speaker diarization

【北邮-腾讯AI】自监督学习音视觉说话人认证，Self-supervised learning for audio-visual speaker diarization

专知会员服务

26+阅读 · 2020年2月16日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

【阿里巴巴】 AI编译器，AI Compiler @ Alibaba，21页ppt

【阿里巴巴】 AI编译器，AI Compiler @ Alibaba，21页ppt

专知会员服务

45+阅读 · 2019年12月22日

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

专知会员服务

28+阅读 · 2019年11月8日

《百度大脑AI技术成果白皮书》（2019版）发布，48页PDF，百度研究院编

《百度大脑AI技术成果白皮书》（2019版）发布，48页PDF，百度研究院编

专知会员服务

38+阅读 · 2019年11月7日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

43+阅读 · 2019年11月5日

2019年人工智能行业现状与发展趋势报告，52页ppt

2019年人工智能行业现状与发展趋势报告，52页ppt

专知会员服务

124+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】多目标奖励与偏好优化：理论与算法

《无形的防御者？将定向能武器集成到反无人机框架的机遇与挑战》报告

自主化海军：海上无人系统与未来海战

迈向智能体系统规模化的科学

相关资讯

2019年，这8款自动语音识别方案你应该了解！

2019年，这8款自动语音识别方案你应该了解！

AI前线

8+阅读 · 2019年9月13日

2019语音技术报告：语音经济规模将超移动应用

2019语音技术报告：语音经济规模将超移动应用

新智元

9+阅读 · 2019年7月23日

Google Brain推出语音识别新技术、面部表情识别助力商业再发展|AI一周学术

Google Brain推出语音识别新技术、面部表情识别助力商业再发展|AI一周学术

大数据文摘

4+阅读 · 2019年4月29日

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

AI研习社

6+阅读 · 2019年4月24日

谷歌用新的语音数据扩增技术大幅提升语音识别准确率

谷歌用新的语音数据扩增技术大幅提升语音识别准确率

雷锋网

7+阅读 · 2019年4月24日

python语音识别终极指南

python语音识别终极指南

AI100

13+阅读 · 2018年4月5日

快讯 | Facebook开源语音识别工具包wav2letter

快讯 | Facebook开源语音识别工具包wav2letter

大数据文摘

6+阅读 · 2018年1月2日

搜狗推出唇语识别技术提升远场语音交互

搜狗推出唇语识别技术提升远场语音交互

智东西

3+阅读 · 2017年12月14日

Mozilla发布开源语音数据库和语音识别模型

Mozilla发布开源语音数据库和语音识别模型

Python程序员

3+阅读 · 2017年12月1日

一文读懂语音识别史

一文读懂语音识别史

机械鸡

9+阅读 · 2017年10月16日

相关论文

Equalization Loss for Long-Tailed Object Recognition

Equalization Loss for Long-Tailed Object Recognition

Arxiv

5+阅读 · 2020年4月14日

The Theory behind Controllable Expressive Speech Synthesis: a Cross-disciplinary Approach

The Theory behind Controllable Expressive Speech Synthesis: a Cross-disciplinary Approach

Arxiv

4+阅读 · 2019年10月14日

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

Arxiv

7+阅读 · 2019年4月18日

Learning latent representations for style control and transfer in end-to-end speech synthesis

Learning latent representations for style control and transfer in end-to-end speech synthesis

Arxiv

5+阅读 · 2019年2月14日

Automatic Summarization of Natural Language

Arxiv

3+阅读 · 2018年12月18日

Improved Speech Enhancement with the Wave-U-Net

Arxiv

8+阅读 · 2018年11月27日

Reconstruction Network for Video Captioning

Arxiv

5+阅读 · 2018年3月30日

TBD: Benchmarking and Analyzing Deep Neural Network Training

Arxiv

3+阅读 · 2018年3月16日

State-of-the-art Speech Recognition With Sequence-to-Sequence Models

Arxiv

7+阅读 · 2018年1月18日

Arbitrarily-Oriented Text Recognition

Arxiv

3+阅读 · 2017年11月12日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

微信扫码咨询专知VIP会员