Emma

摘要:

  • 一種新模型使用過程監督來提高數學推理能力,實現了最先進的性能。
  • 過程監督直接訓練模型產生人類認可的思維鏈,具有超越結果監督的對齊效益。