Proximal Gradient Method

Updated 18 August 2025

Proximal Gradient Method is a convex optimization algorithm that minimizes functions split into a smooth term and a proximable, possibly non-differentiable term.
It decouples the handling of smooth and non-smooth components via gradient and proximal steps, ensuring convergence under standard convexity assumptions.
The method is widely used in machine learning, image reconstruction, and statistical regularization, notably with ℓ1 penalties and total variation models.

La méthode du gradient proximé est un algorithme d’optimisation convexe à base de séparation, conçu pour minimiser la somme de deux fonctions convexes dont l’une est différentiable (lisse) et l’autre éventuellement non différentiable mais facilement “proximable.” Sa formalisation permet d’unifier et de généraliser de nombreuses méthodes numériques classiques, incluant la descente de gradient, le gradient projeté, le seuillage itératif, les projections alternées, et la méthode de Landweber contrainte. Elle s’impose comme un cadre résolument central dans la résolution de problèmes issus de la mécanique, des problèmes inverses, de l’apprentissage automatique, de la reconstruction d’images, des équations variationnelles, de la statistique, de la recherche opérationnelle et du transport optimal. Le fonctionnement et les applications de cette méthode sont détaillés dans "La Méthode du Gradient Proximé" (Combettes, 18 Mar 2025).

1. Formulation mathématique et principe de base

La méthode du gradient proximé s’applique à la résolution de problèmes de la forme : $\min_x F(x) = f(x) + g(x)$ où $f$ est une fonction convexe différentiable (avec un gradient lipschitzien) et $g$ est une fonction convexe possiblement non différentiable mais "proximable", c’est-à-dire telle que son opérateur proximal est explicitement calculable ou très efficace à approcher.

L’opérateur proximal de $g$ au point $v$ et pas $\alpha>0$ est défini par : $\operatorname{prox}_{\alpha g}(v) = \underset{x}{\arg\min}\,\left\{g(x) + \frac{1}{2\alpha}\|x-v\|^2\right\}$ L’itération fondamentale du gradient proximé s’écrit alors : $x^{k+1} = \operatorname{prox}_{\alpha g}\left(x^k - \alpha \nabla f(x^k)\right)$

2. Fondements et propriétés théoriques

Découplage structurel : L’étape de gradient traite spécifiquement le terme lisse $f$ via $\nabla f$ , alors que l’étape proximale gère toutes les singularités ou contraintes imposées par $g$ .
Garanties de convergence : Sous des hypothèses standard (convexité, régularité de $f$ , existence d’un minimiseur), la méthode converge vers une solution, avec un taux de convergence en O(1/k) pour des fonctions simplement convexes et une convergence linéaire si $f$ est fortement convexe.
Interpolations : Si $g=0$ , la méthode se réduit à la descente de gradient standard ; si $g$ est l’indicatrice d’un convexe fermé (fonction prenant la valeur 0 sur l’ensemble, $+\infty$ ailleurs), la méthode correspond alors au gradient projeté.
Gestion efficace de la non-différentiabilité : Le schéma proximal permet de traiter des fonctions objectives intégraux de termes non-lisses, typiquement des pénalités de type $\ell_1$ (lasso), variation totale, ou indicatrices de contraintes.

3. Large éventail d’applications

Le gradient proximé est la brique algorithmique centrale dans de nombreux domaines :

Mécanique : Calcul d’états d’équilibre sous contraintes, minimisation d’énergie avec des inégalités.
Problèmes inverses : Régularisation (total variation, entropie) et contraintes physiques.
Apprentissage automatique : Sélection de variables (pénalités parcimonieuses comme $\ell_1$ , elastic net), apprentissage robuste.
Traitement et reconstruction d’images : Débruitage, déconvolution, inpainting, où des régularisateurs non lisses protègent la structure des contours ou favorisent la parcimonie.
Équations variationnelles : Inclusion de contraintes ou de termes non lisses dans les formulations variationnelles permet de traiter de nombreux problèmes modernes mal posés.
Statistique : Méthodes de régularisation des moindres carrés, modèles parcimonieux, estimation robuste, selection de modèles.
Recherche opérationnelle et transport optimal : Gestion de contraintes complexes et de coûts non différentiables.

4. Comparaison et intégration avec d’autres méthodes

Le formalisme du gradient proximé permet d’englober plusieurs algorithmes classiques :

Descente de gradient : Cas particulier $g=0$ .
Gradient projeté : Lorsque $g$ est l’indicateur d’un ensemble convexe, l’opérateur proximal se réduit à la projection.
Seuillage (soft/hard) itératif : Proximal de la norme $\ell_1$ (soft-thresholding) pour promoteur la parcimonie.
Projections alternées : Le schéma proximal autorise un traitement séquentiel de contraintes multiples.
Méthode Landweber contrainte : Variante pour les problèmes d’optimisation ill-posés sous contraintes.
Cette unification favorise l’analyse théorique et le transfert d’outils d’un domaine à l’autre.

5. Statistique et analyse parcimonieuse de données

Dans les sciences des données et la statistique, la méthode est un outil clé pour les modèles imposant la parcimonie, typiquement via une pénalité $\ell_1$ dans les formulations LASSO ou en compressed sensing. Le proximal de la norme $\ell_1$ (soft-thresholding) réalise naturellement la sélection de variables et l’extraction de modèles interprétables. Pour l’utilisateur :

Efficacité algorithmique : Les itérations sont simples et utilisables sur des grands volumes de données.
Flexibilité : Extension directe à d’autres schémas de pénalisation (par exemple elastic net, group LASSO, etc.).
Interprétabilité : Les solutions obtenues sont structurellement parcimonieuses, ce qui favorise la compréhension statistique.

6. Perspectives et extensions modernes

Le gradient proximé sert de fondement à de nombreuses extensions récentes :

Méthodes distribuées et parallèles : Décomposition et coordination par le gradient proximé dans les réseaux multi-agents ou sur architectures massivement parallèles.
Algorithmes inexactes : Autorisation d’une résolution approchée de l’opérateur proximal pour contrecarrer des étapes internes coûteuses, avec garanties sur la convergence (cf. (Gu et al., 2016, Dai et al., 2022)).
Variantes adaptatives : Sélection automatique de pas, schémas stochastiques pour l'accélération sur grandes données.
Généralisation aux variétés riemanniennes : Adaptation du formalisme proximal à l’optimisation sur des variétés, crucial en apprentissage sur données structurées ou contraintes géométriques (cf. (Bergmann et al., 11 Jun 2025, Bergmann et al., 21 Jul 2025)).

Conclusion

La méthode du gradient proximé constitue une technique pivot pour la résolution de problèmes d’optimisation convexe et non convexe dans lesquels la structure non lisse est critique. Elle généralise, unifie et transcende plusieurs algorithmes classiques, avec une efficacité démontrée en mécanique, inverse, apprentissage automatique, reconstruction d’images, statistique, recherche opérationnelle et transport optimal. Sa capacité à intégrer directement des pénalités non différentiables via l’opérateur proximal confère robustesse algorithmique, convergence rigoureuse, et flexibilité méthodologique, ce qui explique son adoption comme standard industriel et académique dans l’optimisation moderne (Combettes, 18 Mar 2025).