Reflective Policy Optimization (2406.03678v1)

Published 6 Jun 2024 in cs.LG, cs.AI, and stat.ML

Abstract: On-policy reinforcement learning methods, like Trust Region Policy Optimization (TRPO) and Proximal Policy Optimization (PPO), often demand extensive data per update, leading to sample inefficiency. This paper introduces Reflective Policy Optimization (RPO), a novel on-policy extension that amalgamates past and future state-action information for policy optimization. This approach empowers the agent for introspection, allowing modifications to its actions within the current state. Theoretical analysis confirms that policy performance is monotonically improved and contracts the solution space, consequently expediting the convergence procedure. Empirical results demonstrate RPO's feasibility and efficacy in two reinforcement learning benchmarks, culminating in superior sample efficiency. The source code of this work is available at https://github.com/Edgargan/RPO.

Citations (1)

View on Semantic Scholar

Summary

We haven't generated a summary for this paper yet.

Summarize Now

Related Papers

Proximal Policy Optimization Algorithms (2017)
Simple Policy Optimization (2024)
Clipped-Objective Policy Gradients for Pessimistic Policy Optimization (2023)
Optimistic Distributionally Robust Policy Optimization (2020)
Modified Actor-Critics (2019)

GitHub

GitHub - Edgargan/RPO: Reflective Policy Optimization

Tweets

https://twitter.com/realmofresearch/status/1799695752295526706