Emma
サマリー:
-
NVIDIAの研究者は、GPUを活用した重み付き有限状態トランスデューサ(WFST)ビームサーチデコーダを導入し、自動音声認識(ASR)システムのパフォーマンスを向上させました。新しいデコーダは、現在のConnectionist Temporal Classification(CTC)モデルと統合するように設計されており、スループット、レイテンシ、発話特定の単語ブースティングのためのオンザフライの組み合わせなどの機能のサポートを向上させます。
-
GPUを活用したデコーダは、オフラインのシナリオでは最大でスループットが7倍、オンラインのストリーミングシナリオではレイテンシが8倍以上低くなりながら、同じまたはより高い単語エラーレートを維持しました。これにより、従来のCPUベースのビームサーチデコーディング方法と比較して、効率と精度を大幅に向上させることができることが示されています。