Whisper ist ein neuronales Netzwerk, das eine menschenähnliche Genauigkeit in der englischen Spracherkennung bietet.
Es wurde anhand von 680.000 Stunden multilingualer und multitask-überwachter Daten trainiert und bietet eine verbesserte Robustheit gegenüber Akzenten, Hintergrundgeräuschen und Fachsprachen.