Forscher untersuchen die Beziehung zwischen der Optimierung gegen Proxy-Belohnungsmodelle und Goldstandard-Belohnungsmodelle im Verstärkungslernen.
Die Studie untersucht die Auswirkungen verschiedener Faktoren wie Datensatzgröße und Politikparameter auf diese Beziehung und untersucht ihre Auswirkungen auf die AI-Ausrichtung.