Proximal Gradient Algorithm Overview

Updated 16 November 2025

Proximal Gradient Algorithm is a first-order method that decomposes optimization tasks into smooth (gradient-based) and non-smooth (proximal) components.
It iteratively updates solutions by combining a gradient descent step with an easy-to-compute proximal operator, ensuring convergence under appropriate conditions.
The method is widely applied in areas such as image reconstruction, signal processing, and machine learning, with accelerated variants like FISTA enhancing performance.

L’algorithme du gradient proximé (Proximal Gradient Algorithm, PGA) est une méthode d’optimisation de premier ordre pour la minimisation des fonctions composites où l’objectif s’écrit comme la somme d’une fonction différentiable à gradient lipschitzien et d’un terme non-différentiable mais "proximable". La PGA occupe une place centrale en optimisation numérique moderne et fédère un cadre unifié pour le gradient classique, le gradient projeté, le seuillage itératif, les projections alternées, la méthode de Landweber contrainte, et de nombreuses variantes statistiques et analytiques parcimonieuses (Combettes, 18 Mar 2025). Elle s’impose dans la mécanique, le traitement du signal, les problèmes inverses, l’apprentissage automatique, la reconstruction d’images, les équations variationnelles, les statistiques, la recherche opérationnelle et le transport optimal.

1. Formulation mathématique et hypothèses

Considérons le problème composite : $\min_{x \in \mathbb{R}^n} F(x) = f(x) + g(x)$ où :

$f$ : $\mathbb{R}^n \rightarrow \mathbb{R}$ , convexe, différentiable, $\nabla f$ est $L$ -Lipschitz : $\| \nabla f(x) - \nabla f(y) \| \leq L \| x - y \|$
$g$ : $\mathbb{R}^n \rightarrow \mathbb{R} \cup \{+\infty\}$ , fermée, convexe, propre (éventuellement non-différentiable).

Exemples remarquables de $g$ :

Indicateur d’un convexe $C$ ( $g(x)=\iota_C(x)$ ) pour le gradient projeté,
Norme $\ell_1$ pour la parcimonie (LASSO, ISTA),
Variation totale pour le débruitage d’images.

La propriété clé : l’opérateur proximal de $g$ doit être facile à calculer : $\mathrm{prox}_{\lambda g}(v) = \arg\min_{x} \left\{g(x) + \frac{1}{2\lambda}\|x - v\|^2 \right\}$

2. Principe et dérivation de l’itération PGA

À partir de $x_k$ , on forme un modèle quadratique majeurant de $f$ autour de $x_k$ : $f(x) \leq f(x_k) + \langle \nabla f(x_k), x - x_k \rangle + \frac{L}{2} \| x - x_k \|^2$ On minimise le surrogate : $Q(x;x_k) = f(x_k) + \langle \nabla f(x_k), x - x_k \rangle + \frac{1}{2\alpha_k} \| x - x_k \|^2 + g(x)$ L’itération de gradient proximé émerge : $x_{k+1} = \mathrm{prox}_{\alpha_k g}(x_k - \alpha_k \nabla f(x_k))$ avec $\alpha_k \in (0, 1/L]$ pour la stabilité et la décroissance garantie : $F(x_{k+1}) \leq F(x_k) - \frac{1 - \alpha_k L}{2\alpha_k} \|x_{k+1} - x_k\|^2$

3. Convergence et accélération

Convergence sous convexité : en prenant $\alpha_k = 1/L$ constant,

$F(x_k) - F(x^*) \leq \frac{L \|x_0 - x^*\|^2}{2k}$

accéléré par FISTA (Nesterov) jusqu’à $O(1/k^2)$ : $F(x_k) - F(x^*) \leq \frac{2L \|x_0-x^*\|^2}{(k+1)^2}$

Non-convexité : sous propriétés de croissance du second ordre autour d’un minimum local, et erreurs de proximalité qui décroissent assez vite, la convergence linéaire locale au minimum est assurée, même pour $\ell_p$ -régularisation non-convexe avec $0Hu et al., 2017).
Itérations inexactes : les résolutions proximales peuvent être approximatives (tolérances adaptatives), et la convergence linéaire locale est préservée pour des erreurs contrôlées (Hu et al., 2017, Yao et al., 2016).

4. Extensions, variantes et cas multidimensionnels

Distance de Bregman : via un générateur strictement convexe $h$ , l’algorithme s’étend en minimisant $g(x) + \langle \nabla f(x^k), x - x^k \rangle + \tfrac{1}{\gamma_k} D_h(x, x^k)$ , aboutissant à des bornes de convergence plus serrées et à l’adaptativité de la métrique (Zhou et al., 2015).
PGA multidimensionnel et tensoriel : pour $X \in \mathbb{R}^{n_1 \times \dots \times n_d}$ , PGA généralise aisément, la mise en œuvre du double-prox quand $g = \phi \circ \mathcal{L}$ grâce à la dualité de Moreau et aux splittings lagrangiens. Les accélérateurs de type GT-TET et HOSVD-MPE permettent une forte accélération pratique sans modification de la preuve de descente (extrapolation tensorielle) (Bentbib et al., 5 Jan 2024).
Proximal-Proximal-Gradient (PPG) : pour des termes non-différentiables couplés, PPG offre un schéma embarrassingly parallel et direct (résolution simultanée ou stochastique des prox de chaque $h_j$ ), avec une étape de consensus et une correction gradient (Ryu et al., 2017). La convergence reste sous-linéaire ergodique (en $O(1/k)$ ) avec des stepsizes constants non-décroissants, et linéaire si une partie du problème est fortement convexe.
Stochastic, incremental, et subspace PGA : en grande dimension ou pour $f$ à structure somme-finis, les variantes stochastiques utilisent des gradients estimés et ajustent leur précision adaptativement pour garantir les bornes de complexité optimales (Bollapragada et al., 19 Jul 2025, Akyildiz et al., 2018). Le sampling adaptatif des sous-espaces identifiés lors de la résolution (active set, structure parcimonieuse) accroît l’efficacité pour l’exploration des directions pertinentes (Grishchenko et al., 2020).

5. Accélération par inertie, identification de structure, et robustesse

Alternated inertia : en alternant une correction inertielle (extrapolation) toutes les deux itérations, la monotonie stricte de la fonction objectif est conservée, sans oscillation typique de FISTA, et l’identification structurelle (parcimonie, support, rang, etc.) est stabilisée (Iutzeler et al., 2018, Bareilles et al., 2019).
Identification ponctuelle et accélération prudente : la réinitialisation sélective de l’inertie lors de l’entrée sur le bon modèle (support, manifold actif) permet de combiner la vitesse de FISTA avec la robustesse d’identification du gradient proximé classique (Bareilles et al., 2019).
Robustesse sous contraintes physiques : en présence de contraintes de non-négativité (imagerie inverse), les étapes multiplicatives à base de "Sliding Sigmoid Operator" (SSO-PGA) stabilisent la convergence et évitent l’introduction de négatifs ou l’instabilité des divisions, surpassant PGA classique sur la stabilité et la performance (Wang et al., 27 Oct 2025).

6. Applications et comparaisons dans des domaines divers

La liste suivante présente quelques illustrations canoniques du PGA et de ses variantes dans des contextes concrets :

Problème	$f(x)$	$g(x)$	Méthode spécialisée
LASSO/Régularisation	$½\\|Ax-b\\|^2$	$\lambda\\|x\\|_1$	ISTA/FISTA
Rég. graphes/TV/Lap.	$f(x)$ lisse	$\sum \phi(x_i, x_j)$ sur E	Snake, PGA stochastique
Débruitage TV/Images	$½\\|u-f_{\text{bruit}}\\|^2$	$\lambda TV(u)$	dual PGA/Douglas-Rachford
Apprentissage structuré	Sum-of-losses	Overlapping norms/constraints	PPG, S-PPG
Inpainting/Matrix	$½\\|P_\Omega(X-O)\\|_F^2$	$\lambda \sum_i \log(1+\sigma_i(X))$	niAPG, nmAPG
Signal/Audio	$½\\|h*x-y\\|^2$	$\lambda\\|x\\|_1$	PGA, PANOC

Dans chaque cas, le choix du régularisateur $g$ et la facilité de calcul de $\mathrm{prox}_{g}$ sont déterminants.

7. Conseils de mise en œuvre et perspectives

Choix du pas : $\alpha < 1/L$ si $L$ connu, sinon backtracking ou estimation locale.
Critère d’arrêt : sur la norme du changement d’itéré ou progrès relatif sur l’objectif.
Accélération : FISTA mais avec précautions sur le maintien de la structure active ; alternated inertia ou provisionally accelerated pour la stabilité structurelle (Iutzeler et al., 2018, Bareilles et al., 2019).
Extensions : Couplage linéaire, régularisation faible-convexité ( $\ell_p$ , pénalités minimax-concaves), multidimensionnalisation (tensors), probabilisation (EKF) pour l’incertitude (Long et al., 31 Oct 2025, Akyildiz et al., 2018).
Robustesse et contraintes : pour les inverse problems non-négatifs, adopter des mises à jour multiplicatives contrôlées par SSO pour une stabilité renforcée (Wang et al., 27 Oct 2025).

En résumé, la méthode du gradient proximé structure l’essentiel de l’optimisation moderne des problèmes composites. Son cadre unificateur (séparation explicite des étapes lisses et non-lisses, opérateur proximal, adaptativité du pas) et la variété des variantes algorithmiques lui confèrent une expressivité exceptionnelle pour l’optimisation parcimonieuse, structurée, ou sous contraintes complexes, dans une multitude de domaines de recherche et d’application.