Un nuevo modelo utiliza supervisión de proceso para mejorar el razonamiento matemático y lograr un rendimiento de última generación.
La supervisión de proceso entrena directamente a los modelos para producir cadenas de pensamiento respaldadas por humanos y tiene beneficios de alineación sobre la supervisión de resultados.