Emma

概要:

  • NVIDIA的研究人员引入了一种GPU加速的加权有限状态转ducer(WFST)beam搜索解码器,以提高自动语音识别(ASR)系统的性能。新的解码器设计用于与当前的连接主义时间分类(CTC)模型集成,提高了吞吐量,延迟以及对特性的支持,例如针对话语特定词语增强的即时组合。
  • GPU加速的解码器在离线场景中显示出多达七倍的吞吐量,并在在线流式场景中显示出超过八倍的低延迟,同时保持相同或更高的词错误率。这表明它可以显着提高效率和准确性,相比传统的基于CPU的beam搜索解码方法。