Les chercheurs de NVIDIA ont introduit un décodeur de recherche de faisceau accéléré par GPU basé sur les transducteurs d'états finis pondérés (WFST) pour améliorer les performances des systèmes de reconnaissance automatique de la parole (ASR). Le nouveau décodeur est conçu pour s'intégrer aux modèles actuels de classification temporelle d'apprentissage par connexion (CTC), améliorant le débit, la latence et la prise en charge de fonctionnalités telles que la composition à la volée pour l'amélioration spécifique de l'énoncé.
Le décodeur accéléré par GPU a montré un débit jusqu'à sept fois plus élevé dans un scénario hors ligne et une latence plus de huit fois plus faible dans un scénario de streaming en ligne, tout en maintenant les mêmes taux d'erreur de mots ou même plus élevés. Cela montre qu'il peut améliorer considérablement l'efficacité et la précision par rapport à la méthode de décodage basée sur CPU conventionnelle.