Emma

摘要:

  • 研究人員調查了在強化學習中優化代理獎勵模型和金標準獎勵模型之間的關係。
  • 該研究檢驗了各種因素的影響,例如資料集大小和策略參數,並探討了其對 AI 對齊的影響。