Emma

Resumo:

  • Os pesquisadores da NVIDIA introduziram um decodificador de busca de feixe acelerado por GPU para transdutores ponderados de estado finito (WFST) para aprimorar o desempenho dos sistemas de Reconhecimento Automatizado de Fala (ASR). O novo decodificador é projetado para integrar com os modelos de Classificação Temporal Conexa (CTC) atuais, melhorando a taxa de transferência, latência e suporte para recursos como composição sob demanda para aumento de palavras específicas de enunciado.
  • O decodificador acelerado por GPU mostrou até sete vezes maior taxa de transferência em um cenário offline e mais de oito vezes menor latência em um cenário de transmissão online, mantendo as mesmas ou até maiores taxas de erro de palavras. Isso mostra que ele pode melhorar significativamente a eficiência e precisão em comparação ao método de decodificação de busca de feixe baseado em CPU convencional.