5 款不错的开源语音识别/语音文字转换系统

会员服务 ·

5 款不错的开源语音识别/语音文字转换系统 | Linux 中国

2019 年 6 月 22 日 Linux中国

语音文字转换speech-to-text（STT）系统就像它名字所蕴含的意思那样，是一种将说出的单词转换为文本文件以供后续用途的方式。

语音文字转换技术非常有用。它可以用到许多应用中，例如自动转录，使用自己的声音写书籍或文本，用生成的文本文件和其他工具做复杂的分析等。

在过去，语音文字转换技术以专有软件和库为主导，要么没有开源替代品，要么有着严格的限制，也没有社区。这一点正在发生改变，当今有许多开源语音文字转换工具和库可以让你随时使用。

这里我列出了 5 个。

开源语音识别库

DeepSpeech 项目

5 Good Open Source Speech Recognition/Speech-to-Text Systems 16 open source speech recognition

该项目由 Firefox 浏览器的开发组织 Mozilla 团队开发。它是 100% 的自由开源软件，其名字暗示使用了 TensorFlow 机器学习框架实现去功能。

换句话说，你可以用它训练自己的模型获得更好的效果，甚至可以用它来转换其它的语言。你也可以轻松的将它集成到自己的 Tensorflow 机器学习项目中。可惜的是项目当前默认仅支持英语。

它也支持许多编程语言，例如 Python（3.6）。可以让你在数秒之内完成工作：

   
   
     
    
    
      
     
     
       
      
      
        pip3 install deepspeech
     
     
       
    
    
      
     
     
       
      
      
        deepspeech --model models/output_graph.pbmm --alphabet models/alphabet.txt --lm models/lm.binary --trie models/trie --audio my_audio_file.wav

你也可以通过 npm 安装它：

   
   
     
    
    
      
     
     
       
      
      
        npm install deepspeech

◈ 项目主页

Kaldi

5 Good Open Source Speech Recognition/Speech-to-Text Systems 18 open source speech recognition

Kaldi 是一个用 C++ 编写的开源语音识别软件，并且在 Apache 公共许可证下发布。它可以运行在 Windows、macOS 和 Linux 上。它的开发始于 2009。

Kaldi 超过其他语音识别软件的主要特点是可扩展和模块化。社区提供了大量的可以用来完成你的任务的第三方模块。Kaldi 也支持深度神经网络，并且在它的网站上提供了出色的文档。

虽然代码主要由 C++ 完成，但它通过 Bash 和 Python 脚本进行了封装。因此，如果你仅仅想使用基本的语音到文字转换功能，你就会发现通过 Python 或 Bash 能够轻易的实现。

◈ 项目主页

Julius

5 Good Open Source Speech Recognition/Speech-to-Text Systems 20 open source speech recognition

它可能是有史以来最古老的语音识别软件之一。它的开发始于 1991 年的京都大学，之后在 2005 年将所有权转移到了一个独立的项目组。

Julius 的主要特点包括了执行实时 STT 的能力，低内存占用（20000 单词少于 64 MB），能够输出最优词N-best word和词图Word-graph，能够作为服务器单元运行等等。这款软件主要为学术和研究所设计。由 C 语言写成，并且可以运行在 Linux、Windows、macOS 甚至 Android（在智能手机上）。

它当前仅支持英语和日语。软件应该能够从 Linux 发行版的仓库中轻松安装。只要在软件包管理器中搜索 julius 即可。最新的版本发布于本文发布前大约一个半月之前。

◈ 项目主页

Wav2Letter++

5 Good Open Source Speech Recognition/Speech-to-Text Systems 22 open source speech recognition