Emma

요약:

  • 굿하트의 법칙은 측정 항목이 목표가되면 좋은 측정 항목이 아니게됩니다. OpenAI는 측정하기 어렵거나 비용이 많이 드는 목표를 최적화 할 때 고려해야하는 개념입니다.
  • OpenAI는 보상 모델과 같은 대리 목표를 사용하여 도움이되는 정확성과 같은 복잡한 목표를 최적화하고 대리 목표를 최적화하는 간단한 방법인 최고-n 샘플링을 사용합니다.