Emma

Zusammenfassung:

  • NVIDIA-Forscher haben einen mit GPU beschleunigten Weighted Finite State Transducer (WFST) Beam Search Decoder eingeführt, um die Leistung von automatischen Spracherkennungssystemen (ASR) zu verbessern. Der neue Decoder ist darauf ausgelegt, sich mit aktuellen Connectionist Temporal Classification (CTC) Modellen zu integrieren und verbessert Durchsatz, Latenz sowie die Unterstützung von Funktionen wie der Echtzeitkomposition für wortbasierte Verstärkung von Äußerungen.
  • Der mit GPU beschleunigte Decoder zeigte in einem Offline-Szenario bis zu siebenmal höheren Durchsatz und in einem Online-Streaming-Szenario über achtmal niedrigere Latenz, bei gleichbleibenden oder sogar höheren Wortfehlerraten. Dies zeigt, dass er die Effizienz und Genauigkeit im Vergleich zur herkömmlichen, auf CPUs basierenden Beam-Search-Decodierungsmethode signifikant verbessern kann.