摘要
我们介绍了使用神经模型的语音识别问题,强调了当输入和输出序列的长度不同时,训练和推理的CTC损失。
我们讨论了在推理过程中使用的beam搜索,以及如何使用图Transformer网络(Graph Transformer Network)在训练时对该过程进行建模。图Transformer网络基本上是带有自动微分的加权有限状态自动机,它允许我们将先验编码到图中。有不同类型的加权有限状态和不同的操作,包括并集、克林闭包、交、合成和前向得分。损失函数通常是函数之间的区别。我们可以很容易地实现这些网络使用GTN库。
地址: