Discriminative Speech Recognition Rescoring with Pre-trained Language Models (2310.06248v1)

Published 10 Oct 2023 in eess.AS

Abstract: Second pass rescoring is a critical component of competitive automatic speech recognition (ASR) systems. LLMs have demonstrated their ability in using pre-trained information for better rescoring of ASR hypothesis. Discriminative training, directly optimizing the minimum word-error-rate (MWER) criterion typically improves rescoring. In this study, we propose and explore several discriminative fine-tuning schemes for pre-trained LMs. We propose two architectures based on different pooling strategies of output embeddings and compare with probability based MWER. We conduct detailed comparisons between pre-trained causal and bidirectional LMs in discriminative settings. Experiments on LibriSpeech demonstrate that all MWER training schemes are beneficial, giving additional gains upto 8.5\% WER. Proposed pooling variants achieve lower latency while retaining most improvements. Finally, our study concludes that bidirectionality is better utilized with discriminative training.

PDF HTML Abstract

Summarize Bookmark Chat (Pro)

Authors (6)

Prashanth Gurunath Shivakumar (18 papers)
Jari Kolehmainen (13 papers)
Yile Gu (25 papers)
Ankur Gandhe (30 papers)
Ariya Rastrow (55 papers)
Ivan Bulyko (23 papers)

Citations (2)

View on Semantic Scholar

Discriminative Speech Recognition Rescoring with Pre-trained Language Models (2310.06248v1)

Related Papers