Proximal Gradient Algorithm Overview
- Proximal Gradient Algorithm is a first-order method that decomposes optimization tasks into smooth (gradient-based) and non-smooth (proximal) components.
- It iteratively updates solutions by combining a gradient descent step with an easy-to-compute proximal operator, ensuring convergence under appropriate conditions.
- The method is widely applied in areas such as image reconstruction, signal processing, and machine learning, with accelerated variants like FISTA enhancing performance.
L’algorithme du gradient proximé (Proximal Gradient Algorithm, PGA) est une méthode d’optimisation de premier ordre pour la minimisation des fonctions composites où l’objectif s’écrit comme la somme d’une fonction différentiable à gradient lipschitzien et d’un terme non-différentiable mais "proximable". La PGA occupe une place centrale en optimisation numérique moderne et fédère un cadre unifié pour le gradient classique, le gradient projeté, le seuillage itératif, les projections alternées, la méthode de Landweber contrainte, et de nombreuses variantes statistiques et analytiques parcimonieuses (Combettes, 18 Mar 2025). Elle s’impose dans la mécanique, le traitement du signal, les problèmes inverses, l’apprentissage automatique, la reconstruction d’images, les équations variationnelles, les statistiques, la recherche opérationnelle et le transport optimal.
1. Formulation mathématique et hypothèses
Considérons le problème composite : où :
- : , convexe, différentiable, est -Lipschitz :
- : , fermée, convexe, propre (éventuellement non-différentiable).
Exemples remarquables de :
- Indicateur d’un convexe () pour le gradient projeté,
- Norme pour la parcimonie (LASSO, ISTA),
- Variation totale pour le débruitage d’images.
La propriété clé : l’opérateur proximal de doit être facile à calculer :
2. Principe et dérivation de l’itération PGA
À partir de , on forme un modèle quadratique majeurant de autour de : On minimise le surrogate : L’itération de gradient proximé émerge : avec pour la stabilité et la décroissance garantie :
3. Convergence et accélération
- Convergence sous convexité : en prenant constant,
accéléré par FISTA (Nesterov) jusqu’à :
- Non-convexité : sous propriétés de croissance du second ordre autour d’un minimum local, et erreurs de proximalité qui décroissent assez vite, la convergence linéaire locale au minimum est assurée, même pour -régularisation non-convexe avec $0
Hu et al., 2017).
- Itérations inexactes : les résolutions proximales peuvent être approximatives (tolérances adaptatives), et la convergence linéaire locale est préservée pour des erreurs contrôlées (Hu et al., 2017, Yao et al., 2016).
4. Extensions, variantes et cas multidimensionnels
- Distance de Bregman : via un générateur strictement convexe , l’algorithme s’étend en minimisant , aboutissant à des bornes de convergence plus serrées et à l’adaptativité de la métrique (Zhou et al., 2015).
- PGA multidimensionnel et tensoriel : pour , PGA généralise aisément, la mise en œuvre du double-prox quand grâce à la dualité de Moreau et aux splittings lagrangiens. Les accélérateurs de type GT-TET et HOSVD-MPE permettent une forte accélération pratique sans modification de la preuve de descente (extrapolation tensorielle) (Bentbib et al., 5 Jan 2024).
- Proximal-Proximal-Gradient (PPG) : pour des termes non-différentiables couplés, PPG offre un schéma embarrassingly parallel et direct (résolution simultanée ou stochastique des prox de chaque ), avec une étape de consensus et une correction gradient (Ryu et al., 2017). La convergence reste sous-linéaire ergodique (en ) avec des stepsizes constants non-décroissants, et linéaire si une partie du problème est fortement convexe.
- Stochastic, incremental, et subspace PGA : en grande dimension ou pour à structure somme-finis, les variantes stochastiques utilisent des gradients estimés et ajustent leur précision adaptativement pour garantir les bornes de complexité optimales (Bollapragada et al., 19 Jul 2025, Akyildiz et al., 2018). Le sampling adaptatif des sous-espaces identifiés lors de la résolution (active set, structure parcimonieuse) accroît l’efficacité pour l’exploration des directions pertinentes (Grishchenko et al., 2020).
5. Accélération par inertie, identification de structure, et robustesse
- Alternated inertia : en alternant une correction inertielle (extrapolation) toutes les deux itérations, la monotonie stricte de la fonction objectif est conservée, sans oscillation typique de FISTA, et l’identification structurelle (parcimonie, support, rang, etc.) est stabilisée (Iutzeler et al., 2018, Bareilles et al., 2019).
- Identification ponctuelle et accélération prudente : la réinitialisation sélective de l’inertie lors de l’entrée sur le bon modèle (support, manifold actif) permet de combiner la vitesse de FISTA avec la robustesse d’identification du gradient proximé classique (Bareilles et al., 2019).
- Robustesse sous contraintes physiques : en présence de contraintes de non-négativité (imagerie inverse), les étapes multiplicatives à base de "Sliding Sigmoid Operator" (SSO-PGA) stabilisent la convergence et évitent l’introduction de négatifs ou l’instabilité des divisions, surpassant PGA classique sur la stabilité et la performance (Wang et al., 27 Oct 2025).
6. Applications et comparaisons dans des domaines divers
La liste suivante présente quelques illustrations canoniques du PGA et de ses variantes dans des contextes concrets :
| Problème | Méthode spécialisée | ||
|---|---|---|---|
| LASSO/Régularisation | ISTA/FISTA | ||
| Rég. graphes/TV/Lap. | lisse | sur E | Snake, PGA stochastique |
| Débruitage TV/Images | dual PGA/Douglas-Rachford | ||
| Apprentissage structuré | Sum-of-losses | Overlapping norms/constraints | PPG, S-PPG |
| Inpainting/Matrix | niAPG, nmAPG | ||
| Signal/Audio | PGA, PANOC |
Dans chaque cas, le choix du régularisateur et la facilité de calcul de sont déterminants.
7. Conseils de mise en œuvre et perspectives
- Choix du pas : si connu, sinon backtracking ou estimation locale.
- Critère d’arrêt : sur la norme du changement d’itéré ou progrès relatif sur l’objectif.
- Accélération : FISTA mais avec précautions sur le maintien de la structure active ; alternated inertia ou provisionally accelerated pour la stabilité structurelle (Iutzeler et al., 2018, Bareilles et al., 2019).
- Extensions : Couplage linéaire, régularisation faible-convexité (, pénalités minimax-concaves), multidimensionnalisation (tensors), probabilisation (EKF) pour l’incertitude (Long et al., 31 Oct 2025, Akyildiz et al., 2018).
- Robustesse et contraintes : pour les inverse problems non-négatifs, adopter des mises à jour multiplicatives contrôlées par SSO pour une stabilité renforcée (Wang et al., 27 Oct 2025).
En résumé, la méthode du gradient proximé structure l’essentiel de l’optimisation moderne des problèmes composites. Son cadre unificateur (séparation explicite des étapes lisses et non-lisses, opérateur proximal, adaptativité du pas) et la variété des variantes algorithmiques lui confèrent une expressivité exceptionnelle pour l’optimisation parcimonieuse, structurée, ou sous contraintes complexes, dans une multitude de domaines de recherche et d’application.
Sponsored by Paperpile, the PDF & BibTeX manager trusted by top AI labs.
Get 30 days free