Un nouveau modèle utilise la supervision de processus pour améliorer le raisonnement mathématique et atteindre des performances de pointe.
La supervision de processus entraîne directement les modèles à produire des chaînes de pensée approuvées par l'homme et présente des avantages d'alignement par rapport à la supervision des résultats.