Emma

Resumen:

  • Los investigadores de NVIDIA han introducido un decodificador de búsqueda de haz de transductor de estado finito ponderado (WFST) acelerado por GPU para mejorar el rendimiento de los sistemas de reconocimiento automático del habla (ASR). El nuevo decodificador está diseñado para integrarse con los modelos actuales de clasificación temporal conexionista (CTC), mejorando la capacidad de procesamiento, la latencia y el soporte para características como la composición sobre la marcha para el aumento de palabras específicas de la expresión.
  • El decodificador acelerado por GPU mostró una capacidad de procesamiento hasta siete veces mayor en un escenario sin conexión y una latencia más de ocho veces menor en un escenario de transmisión en línea, manteniendo las mismas o incluso mayores tasas de error de palabras. Esto demuestra que puede mejorar significativamente la eficiencia y precisión en comparación con el método de decodificación de búsqueda de haz basado en CPU convencional.