Emma

サマリー:

  • 新しいモデルは、プロセス監視を使用して数学的な推論を改善し、最先端のパフォーマンスを達成します。
  • プロセス監視は、モデルが人間が承認した思考チェーンを生成するように直接トレーニングし、アウトカム監視に比べて整列の利点があります。