Emma

Resumen:

  • Los investigadores investigan la relación entre la optimización contra modelos de recompensa de proxy y modelos de recompensa de estándar de oro en el aprendizaje por refuerzo.
  • El estudio examina los efectos de varios factores, como el tamaño del conjunto de datos y los parámetros de la política, en esta relación y explora sus implicaciones para la alineación de la IA.