Papers
Topics
Authors
Recent
2000 character limit reached

Proximal Gradient Algorithm Overview

Updated 16 November 2025
  • Proximal Gradient Algorithm is a first-order method that decomposes optimization tasks into smooth (gradient-based) and non-smooth (proximal) components.
  • It iteratively updates solutions by combining a gradient descent step with an easy-to-compute proximal operator, ensuring convergence under appropriate conditions.
  • The method is widely applied in areas such as image reconstruction, signal processing, and machine learning, with accelerated variants like FISTA enhancing performance.

L’algorithme du gradient proximé (Proximal Gradient Algorithm, PGA) est une méthode d’optimisation de premier ordre pour la minimisation des fonctions composites où l’objectif s’écrit comme la somme d’une fonction différentiable à gradient lipschitzien et d’un terme non-différentiable mais "proximable". La PGA occupe une place centrale en optimisation numérique moderne et fédère un cadre unifié pour le gradient classique, le gradient projeté, le seuillage itératif, les projections alternées, la méthode de Landweber contrainte, et de nombreuses variantes statistiques et analytiques parcimonieuses (Combettes, 18 Mar 2025). Elle s’impose dans la mécanique, le traitement du signal, les problèmes inverses, l’apprentissage automatique, la reconstruction d’images, les équations variationnelles, les statistiques, la recherche opérationnelle et le transport optimal.

1. Formulation mathématique et hypothèses

Considérons le problème composite : minxRnF(x)=f(x)+g(x)\min_{x \in \mathbb{R}^n} F(x) = f(x) + g(x) où :

  • ff : RnR\mathbb{R}^n \rightarrow \mathbb{R}, convexe, différentiable, f\nabla f est LL-Lipschitz : f(x)f(y)Lxy\| \nabla f(x) - \nabla f(y) \| \leq L \| x - y \|
  • gg : RnR{+}\mathbb{R}^n \rightarrow \mathbb{R} \cup \{+\infty\}, fermée, convexe, propre (éventuellement non-différentiable).

Exemples remarquables de gg :

  • Indicateur d’un convexe CC (g(x)=ιC(x)g(x)=\iota_C(x)) pour le gradient projeté,
  • Norme 1\ell_1 pour la parcimonie (LASSO, ISTA),
  • Variation totale pour le débruitage d’images.

La propriété clé : l’opérateur proximal de gg doit être facile à calculer : proxλg(v)=argminx{g(x)+12λxv2}\mathrm{prox}_{\lambda g}(v) = \arg\min_{x} \left\{g(x) + \frac{1}{2\lambda}\|x - v\|^2 \right\}

2. Principe et dérivation de l’itération PGA

À partir de xkx_k, on forme un modèle quadratique majeurant de ff autour de xkx_k : f(x)f(xk)+f(xk),xxk+L2xxk2f(x) \leq f(x_k) + \langle \nabla f(x_k), x - x_k \rangle + \frac{L}{2} \| x - x_k \|^2 On minimise le surrogate : Q(x;xk)=f(xk)+f(xk),xxk+12αkxxk2+g(x)Q(x;x_k) = f(x_k) + \langle \nabla f(x_k), x - x_k \rangle + \frac{1}{2\alpha_k} \| x - x_k \|^2 + g(x) L’itération de gradient proximé émerge : xk+1=proxαkg(xkαkf(xk))x_{k+1} = \mathrm{prox}_{\alpha_k g}(x_k - \alpha_k \nabla f(x_k)) avec αk(0,1/L]\alpha_k \in (0, 1/L] pour la stabilité et la décroissance garantie : F(xk+1)F(xk)1αkL2αkxk+1xk2F(x_{k+1}) \leq F(x_k) - \frac{1 - \alpha_k L}{2\alpha_k} \|x_{k+1} - x_k\|^2

3. Convergence et accélération

  • Convergence sous convexité : en prenant αk=1/L\alpha_k = 1/L constant,

F(xk)F(x)Lx0x22kF(x_k) - F(x^*) \leq \frac{L \|x_0 - x^*\|^2}{2k}

accéléré par FISTA (Nesterov) jusqu’à O(1/k2)O(1/k^2) : F(xk)F(x)2Lx0x2(k+1)2F(x_k) - F(x^*) \leq \frac{2L \|x_0-x^*\|^2}{(k+1)^2}

  • Non-convexité : sous propriétés de croissance du second ordre autour d’un minimum local, et erreurs de proximalité qui décroissent assez vite, la convergence linéaire locale au minimum est assurée, même pour p\ell_p-régularisation non-convexe avec $0Hu et al., 2017).
  • Itérations inexactes : les résolutions proximales peuvent être approximatives (tolérances adaptatives), et la convergence linéaire locale est préservée pour des erreurs contrôlées (Hu et al., 2017, Yao et al., 2016).

4. Extensions, variantes et cas multidimensionnels

  • Distance de Bregman : via un générateur strictement convexe hh, l’algorithme s’étend en minimisant g(x)+f(xk),xxk+1γkDh(x,xk)g(x) + \langle \nabla f(x^k), x - x^k \rangle + \tfrac{1}{\gamma_k} D_h(x, x^k), aboutissant à des bornes de convergence plus serrées et à l’adaptativité de la métrique (Zhou et al., 2015).
  • PGA multidimensionnel et tensoriel : pour XRn1××ndX \in \mathbb{R}^{n_1 \times \dots \times n_d}, PGA généralise aisément, la mise en œuvre du double-prox quand g=ϕLg = \phi \circ \mathcal{L} grâce à la dualité de Moreau et aux splittings lagrangiens. Les accélérateurs de type GT-TET et HOSVD-MPE permettent une forte accélération pratique sans modification de la preuve de descente (extrapolation tensorielle) (Bentbib et al., 5 Jan 2024).
  • Proximal-Proximal-Gradient (PPG) : pour des termes non-différentiables couplés, PPG offre un schéma embarrassingly parallel et direct (résolution simultanée ou stochastique des prox de chaque hjh_j), avec une étape de consensus et une correction gradient (Ryu et al., 2017). La convergence reste sous-linéaire ergodique (en O(1/k)O(1/k)) avec des stepsizes constants non-décroissants, et linéaire si une partie du problème est fortement convexe.
  • Stochastic, incremental, et subspace PGA : en grande dimension ou pour ff à structure somme-finis, les variantes stochastiques utilisent des gradients estimés et ajustent leur précision adaptativement pour garantir les bornes de complexité optimales (Bollapragada et al., 19 Jul 2025, Akyildiz et al., 2018). Le sampling adaptatif des sous-espaces identifiés lors de la résolution (active set, structure parcimonieuse) accroît l’efficacité pour l’exploration des directions pertinentes (Grishchenko et al., 2020).

5. Accélération par inertie, identification de structure, et robustesse

  • Alternated inertia : en alternant une correction inertielle (extrapolation) toutes les deux itérations, la monotonie stricte de la fonction objectif est conservée, sans oscillation typique de FISTA, et l’identification structurelle (parcimonie, support, rang, etc.) est stabilisée (Iutzeler et al., 2018, Bareilles et al., 2019).
  • Identification ponctuelle et accélération prudente : la réinitialisation sélective de l’inertie lors de l’entrée sur le bon modèle (support, manifold actif) permet de combiner la vitesse de FISTA avec la robustesse d’identification du gradient proximé classique (Bareilles et al., 2019).
  • Robustesse sous contraintes physiques : en présence de contraintes de non-négativité (imagerie inverse), les étapes multiplicatives à base de "Sliding Sigmoid Operator" (SSO-PGA) stabilisent la convergence et évitent l’introduction de négatifs ou l’instabilité des divisions, surpassant PGA classique sur la stabilité et la performance (Wang et al., 27 Oct 2025).

6. Applications et comparaisons dans des domaines divers

La liste suivante présente quelques illustrations canoniques du PGA et de ses variantes dans des contextes concrets :

Problème f(x)f(x) g(x)g(x) Méthode spécialisée
LASSO/Régularisation ½Axb2½\|Ax-b\|^2 λx1\lambda\|x\|_1 ISTA/FISTA
Rég. graphes/TV/Lap. f(x)f(x) lisse ϕ(xi,xj)\sum \phi(x_i, x_j) sur E Snake, PGA stochastique
Débruitage TV/Images ½ufbruit2½\|u-f_{\text{bruit}}\|^2 λTV(u)\lambda TV(u) dual PGA/Douglas-Rachford
Apprentissage structuré Sum-of-losses Overlapping norms/constraints PPG, S-PPG
Inpainting/Matrix ½PΩ(XO)F2½\|P_\Omega(X-O)\|_F^2 λilog(1+σi(X))\lambda \sum_i \log(1+\sigma_i(X)) niAPG, nmAPG
Signal/Audio ½hxy2½\|h*x-y\|^2 λx1\lambda\|x\|_1 PGA, PANOC

Dans chaque cas, le choix du régularisateur gg et la facilité de calcul de proxg\mathrm{prox}_{g} sont déterminants.

7. Conseils de mise en œuvre et perspectives

  • Choix du pas : α<1/L\alpha < 1/L si LL connu, sinon backtracking ou estimation locale.
  • Critère d’arrêt : sur la norme du changement d’itéré ou progrès relatif sur l’objectif.
  • Accélération : FISTA mais avec précautions sur le maintien de la structure active ; alternated inertia ou provisionally accelerated pour la stabilité structurelle (Iutzeler et al., 2018, Bareilles et al., 2019).
  • Extensions : Couplage linéaire, régularisation faible-convexité (p\ell_p, pénalités minimax-concaves), multidimensionnalisation (tensors), probabilisation (EKF) pour l’incertitude (Long et al., 31 Oct 2025, Akyildiz et al., 2018).
  • Robustesse et contraintes : pour les inverse problems non-négatifs, adopter des mises à jour multiplicatives contrôlées par SSO pour une stabilité renforcée (Wang et al., 27 Oct 2025).

En résumé, la méthode du gradient proximé structure l’essentiel de l’optimisation moderne des problèmes composites. Son cadre unificateur (séparation explicite des étapes lisses et non-lisses, opérateur proximal, adaptativité du pas) et la variété des variantes algorithmiques lui confèrent une expressivité exceptionnelle pour l’optimisation parcimonieuse, structurée, ou sous contraintes complexes, dans une multitude de domaines de recherche et d’application.

Slide Deck Streamline Icon: https://streamlinehq.com

Whiteboard

Forward Email Streamline Icon: https://streamlinehq.com

Follow Topic

Get notified by email when new papers are published related to Proximal Gradient Algorithm (PGA).