Исследователи NVIDIA представили графический процессором ускоренный декодер взвешенных конечных автоматов (WFST) для улучшения производительности систем автоматического распознавания речи (ASR). Новый декодер разработан для интеграции с существующими моделями связистической временной классификации (CTC), улучшая пропускную способность, задержку и поддержку функций, таких как композиция на лету для усиления слов в конкретной речи.
Декодер, ускоренный графическим процессором, показал в офлайн сценарии до семи раз большую пропускную способность и более восемь раз меньшую задержку в сценарии онлайн-трансляции, при сохранении того же или даже более высокого уровня ошибок слов. Это показывает, что он может значительно повысить эффективность и точность по сравнению с традиционным методом декодирования с использованием центрального процессора.