NVIDIA 연구원들은 GPU 가속 가중 유한 상태 변환기(WFST) 빔 서치 디코더를 도입하여 자동화 음성 인식(ASR) 시스템의 성능을 향상시켰습니다. 새로운 디코더는 현재 연결주의 시간 분류(CTC) 모델과 통합되어 처리량, 지연 시간, 발화별 단어 부스트를 위한 실시간 구성과 같은 기능을 개선합니다.
GPU 가속화 디코더는 오프라인 시나리오에서 최대 7배 높은 처리량과 온라인 스트리밍 시나리오에서 최대 8배 낮은 지연 시간을 보여줍니다. 이는 기존 CPU 기반 빔 서치 디코딩 방법과 비교하여 효율성과 정확성을 크게 향상시킬 수 있음을 보여줍니다.