Emma

요약:

  • NVIDIA 연구원들은 GPU 가속 가중 유한 상태 변환기(WFST) 빔 서치 디코더를 도입하여 자동화 음성 인식(ASR) 시스템의 성능을 향상시켰습니다. 새로운 디코더는 현재 연결주의 시간 분류(CTC) 모델과 통합되어 처리량, 지연 시간, 발화별 단어 부스트를 위한 실시간 구성과 같은 기능을 개선합니다.
  • GPU 가속화 디코더는 오프라인 시나리오에서 최대 7배 높은 처리량과 온라인 스트리밍 시나리오에서 최대 8배 낮은 지연 시간을 보여줍니다. 이는 기존 CPU 기반 빔 서치 디코딩 방법과 비교하여 효율성과 정확성을 크게 향상시킬 수 있음을 보여줍니다.