Pseudo-inverse

Page d’aide sur l’homonymie

Pour les articles homonymes, voir Inverse (homonymie).

En mathématiques, et plus précisément en algèbre linéaire, la notion de pseudo-inverse (ou inverse généralisé) généralise celle d’inverse d’une application linéaire ou d’une matrice[1] aux cas non inversibles en lui supprimant certaines des propriétés demandées aux inverses, ou en l’étendant aux espaces non algébriques plus larges.

En général, il n’y a pas unicité du pseudo-inverse. Son existence, pour une application linéaire entre espaces de dimension éventuellement infinie, est équivalente à l'existence de supplémentaires du noyau et de l'image. Selon les propriétés demandées, le pseudo-inverse défini permet toutefois de généraliser la notion d'inverse en se restreignant au semi-groupe associatif multiplicatif seul, même s'il ne respecte pas les autres contraintes du corps ou de l'algèbre (en particulier les propriétés de distributivité ou de commutativité ne sont plus vraies dans le cas général, là où le véritable inverse peut les respecter).

Ont été étudiés en particulier les types de pseudo-inverses suivants :

  • le pseudo-inverse de Moore-Penrose dans le cas des matrices carrées non inversibles, mais généralisable à toute algèbre de matrices à valeurs dans un corps.
  • le pseudo-inverse de Drazin qui détermine la matrice qui constitue un point fixe dans la multiplication par l'exponentiation de matrices carrées au-delà d'un degré fini.
  • le pseudo-inverse à gauche et le pseudo-inverse à droite, utiles dans le cas des matrices non carrées qui ne sont jamais inversibles pour déterminer la factorisation en valeurs singulières, et qui ne sont pas nécessairement égaux non plus dans le cas de transformées non commutatives comme les opérateurs fonctionnels et distributions non discrètes.

Le pseudo-inverse se calcule à l’aide d’une généralisation du théorème spectral aux matrices non carrées.

Il est notamment utile dans le calcul de régressions (méthode des moindres carrés) pour un système d'équations linéaires.

Historique

Pour une matrice à coefficients réels ou complexes (pas nécessairement carrée), ou pour une application linéaire entre espaces euclidiens ou hermitiens, en ajoutant certaines conditions supplémentaires, on a unicité du pseudo-inverse, appelé pseudo-inverse de Moore-Penrose (ou simplement « pseudo-inverse »), décrit par Eliakim Hastings Moore[2] dès 1920 et redécouvert indépendamment par Roger Penrose[3] en 1955. Erik Ivar Fredholm avait déjà introduit le concept de pseudo-inverse pour un opérateur intégral en 1903.

Cas général pour une application linéaire

Définition et premières propriétés

Soient f {\displaystyle f} une application linéaire entre deux espaces vectoriels E {\displaystyle E} et F {\displaystyle F} et g {\displaystyle g} une application linéaire de F {\displaystyle F} dans E {\displaystyle E} . Ces deux applications sont pseudo-inverses l'une de l'autre si les deux conditions suivantes sont satisfaites :

f g f = f {\displaystyle f\circ g\circ f=f} et g f g = g {\displaystyle g\circ f\circ g=g} .

Dans ce cas, les propriétés suivantes sont vérifiées :

  • l'espace E {\displaystyle E} est la somme directe du noyau de f {\displaystyle f} et de l'image de g {\displaystyle g}  ;
  • l'espace F {\displaystyle F} est la somme directe du noyau de g {\displaystyle g} et de l'image de f {\displaystyle f}  ;
  • les applications f {\displaystyle f} et g {\displaystyle g} induisent des isomorphismes réciproques entre leurs images ;
  • si l'application f {\displaystyle f} est inversible, alors son inverse est l'application g {\displaystyle g} .

Cette définition se traduit naturellement sous forme matricielle dans le cas d'espaces vectoriels de dimension finie.

Existence et construction

Réciproquement, soit f {\displaystyle f} une application linéaire entre deux espaces vectoriels E {\displaystyle E} et F {\displaystyle F} , dont le noyau admette un supplémentaire K {\displaystyle K} dans E {\displaystyle E} et dont l'image admette un supplémentaire N {\displaystyle N} dans F {\displaystyle F} . Alors la restriction de f {\displaystyle f} à K {\displaystyle K} induit un isomorphisme entre K {\displaystyle K} et son image. L'application réciproque de l'image de f {\displaystyle f} vers K {\displaystyle K} s'étend de façon unique par l'application nulle sur N {\displaystyle N} , en une application linéaire g {\displaystyle g} de F {\displaystyle F} dans E {\displaystyle E} qui est par construction pseudo-inverse de f {\displaystyle f} .

Il y a donc correspondance biunivoque entre les pseudo-inverses d'une application linéaire et les couples de supplémentaires pour son noyau et son image.

Remarque : ceci s'applique évidemment aux cas où l'un des supplémentaires K {\displaystyle K} et N {\displaystyle N} est réduit à l'origine ou à l'espace vectoriel tout entier, ce qui a lieu en particulier lorsque f {\displaystyle f} est inversible : K {\displaystyle K} est alors égal à E {\displaystyle E} et N {\displaystyle N} est réduit à l'origine.

Choix des supplémentaires

Il n'y a pas de choix canonique d'un supplémentaire en général, mais une structure d'espace euclidien ou hermitien sur les espaces vectoriels source et but permet d'en déterminer un par la définition de l'orthogonal. Cette définition du pseudo-inverse correspond au « pseudo-inverse de Moore-Penrose » pour les matrices.

Cas matriciel

Définition

Étant donné une matrice A {\displaystyle A} à coefficients réels ou complexes avec n {\displaystyle n} lignes et p {\displaystyle p} colonnes, son pseudo-inverse A + {\displaystyle A^{+}} est l'unique matrice à p {\displaystyle p} lignes et n {\displaystyle n} colonnes vérifiant les conditions suivantes :

  1. A A + A = A {\displaystyle AA^{+}A=A\,}  ;
  2. A + A A + = A + {\displaystyle A^{+}AA^{+}=A^{+}}       ( A + {\displaystyle A^{+}} est un inverse pour le semi-groupe multiplicatif) ;
  3. ( A A + ) = A A + {\displaystyle (AA^{+})^{*}=AA^{+}}       ( A A + {\displaystyle AA^{+}} est une matrice hermitienne) ;
  4. ( A + A ) = A + A {\displaystyle (A^{+}A)^{*}=A^{+}A}       ( A + A {\displaystyle A^{+}A} est également hermitienne).

Ici, la notation M {\displaystyle M^{*}} désigne la matrice adjointe à M {\displaystyle M} , donc la transposée pour le cas réel.

Cette matrice peut s'obtenir comme une limite :

A + = lim δ 0 ( A A + δ I ) 1 A = lim δ 0 A ( A A + δ I ) 1 {\displaystyle A^{+}=\lim _{\delta \to 0}(A^{*}A+\delta I)^{-1}A^{*}=\lim _{\delta \to 0}A^{*}(AA^{*}+\delta I)^{-1}}

qui existe même si les matrices produits ( A A {\displaystyle AA^{*}} ) et ( A A {\displaystyle A^{*}A} ) ne sont pas inversibles.

Propriétés

( A + ) + = A ( t A ) + = t ( A + ) ( A ¯ ) + = A + ¯ ( A ) + = ( A + ) {\displaystyle {\begin{aligned}(A^{+})^{+}&=A\\({}^{t}\!A)^{+}&={}^{t}\!(A^{+})\\({\overline {A}})^{+}&={\overline {A^{+}}}\\(A^{*})^{+}&=(A^{+})^{*}\\\end{aligned}}}

Identités valables pour toute matrice A {\displaystyle A}
(à coefficients réels ou complexes)

L’opération de pseudo-inversion :

  • est involutive ;
  • commute avec la transposition et la conjugaison ;
  • est un antimorphisme sur le produit, sous certaines hypothèses : soient A {\displaystyle A} et B {\displaystyle B} deux matrices dont le produit A B {\displaystyle AB} existe. Si l’une au moins est unitaire, ou si les deux matrices sont de rang égal à leur dimension commune, alors ( A B ) + = B + A + {\displaystyle (AB)^{+}=B^{+}A^{+}}  ;
  • n’est pas continue en 0 (la matrice nulle). En effet, elle est homogène de degré –1 : pour tout scalaire α {\displaystyle \alpha } non nul, ( α A ) + = 1 α A + {\displaystyle (\alpha A)^{+}={\frac {1}{\alpha }}A^{+}} . Plus généralement, elle n’est continue qu’au voisinage des matrices inversibles (ou de rang maximum pour des matrices non carrées[4]).

Projections

Dans le cas matriciel, P = A A + {\displaystyle P=AA^{+}} et Q = A + A {\displaystyle Q=A^{+}A} sont des projecteurs orthogonaux, c'est-à-dire des matrices hermitiennes ( P = P {\displaystyle P=P^{*}} , Q = Q {\displaystyle Q=Q^{*}} ) et idempotentes ( P 2 = P {\displaystyle P^{2}=P} et Q 2 = Q {\displaystyle Q^{2}=Q} ), et l'on a les résultats suivants[5] :

  • P A = A = A Q {\displaystyle PA=A=AQ} et A + P = A + = Q A + {\displaystyle A^{+}P=A^{+}=QA^{+}}  ;
  • P {\displaystyle P} est le projecteur orthogonal sur l'image de A {\displaystyle A} (égale à l'orthogonal du noyau de A {\displaystyle A^{*}} ) ;
  • Q {\displaystyle Q} est le projecteur orthogonal sur l'image de A {\displaystyle A^{*}} (égal à l'orthogonal du noyau de A {\displaystyle A} ) ;
  • I P {\displaystyle I-P} est le projecteur orthogonal sur le noyau de A {\displaystyle A^{*}}  ;
  • I Q {\displaystyle I-Q} est le projecteur orthogonal sur le noyau de A {\displaystyle A} .

Calcul effectif

Si la matrice A {\displaystyle A} , avec n {\displaystyle n} lignes et p {\displaystyle p} colonnes, est de rang k {\displaystyle k} , alors elle peut s'écrire comme un produit de matrices de même rang A = B C {\displaystyle A=BC} , où B {\displaystyle B} possède n {\displaystyle n} lignes et k {\displaystyle k} colonnes et C {\displaystyle C} possède k {\displaystyle k} lignes et p {\displaystyle p} colonnes. Dans ce cas les produits ( C C {\displaystyle CC^{*}} ) et ( B B {\displaystyle B^{*}B} ) sont inversibles et la relation suivante est vérifiée :

A + = C ( C C ) 1 ( B B ) 1 B {\displaystyle A^{+}=C^{*}(CC^{*})^{-1}(B^{*}B)^{-1}B^{*}} .

Des approches optimisées existent pour le calcul de pseudo-inverses de matrices par blocs.

Algorithmiquement, le pseudo-inverse s'obtient à partir de la décomposition en valeurs singulières : muni de cette décomposition A = U σ V {\displaystyle A=U\sigma V^{*}} , on calcule

A + = V σ + U {\displaystyle A^{+}=V\sigma ^{+}U^{*}} ,

σ + {\displaystyle \sigma ^{+}} est le pseudo-inverse de σ {\displaystyle \sigma } . La matrice σ {\displaystyle \sigma } est constituée de deux blocs : une matrice diagonale et une matrice nulle. Son pseudo-inverse est une matrice dont les éléments non nuls sont obtenus en inversant les éléments non nuls (de la diagonale) de σ {\displaystyle \sigma } , et en prenant le transposé de la matrice ainsi obtenue.

À partir d'une matrice dont le pseudo-inverse est connu, il existe des algorithmes spécialisés[Lesquels ?] qui effectuent le calcul plus rapidement pour des matrices en rapport avec la première. En particulier, si la différence n'est que d'une ligne ou colonne changée, supprimée ou ajoutée, des algorithmes itératifs peuvent exploiter cette relation.

Cas particuliers

X + = { 0 si   X = 0 1 X 2 X sinon . {\displaystyle X^{+}=\left\{{\begin{array}{rl}0&{\mbox{si}}\ X=0\,\\{\frac {1}{\left\Vert X\right\Vert ^{2}}}X^{*}&{\mbox{sinon}}.\\\end{array}}\right.}

Pseudo-inverse d'un vecteur colonne

  • Le pseudo-inverse d’une matrice nulle est sa transposée (également nulle).
  • Le pseudo-inverse d’un vecteur colonne non nul est son vecteur adjoint divisé par sa norme au carré.
  • Plus généralement, si le rang de A {\displaystyle A} est égal à son nombre de lignes[1], la matrice B {\displaystyle B} peut être choisie égale à l’identité et dans ce cas :
    A + = A ( A A ) 1 {\displaystyle A^{+}=A^{*}(AA^{*})^{-1}} .
  • De même, si le rang de A {\displaystyle A} est égal à son nombre de colonnes,
    A + = ( A A ) 1 A {\displaystyle A^{+}=(A^{*}A)^{-1}A^{*}} .
  • A fortiori si la matrice A {\displaystyle A} est inversible, son pseudo-inverse est son inverse.
  • Si le pseudo-inverse de A A {\displaystyle A^{*}A} est connu, on peut en déduire A + {\displaystyle A^{+}} par l’égalité :
    A + = ( A A ) + A {\displaystyle A^{+}=(A^{*}A)^{+}A^{*}}  ;
  • De même, si ( A A ) + {\displaystyle (AA^{*})^{+}} est connu, le pseudo-inverse de A {\displaystyle A} est donné par :
    A + = A ( A A ) + {\displaystyle A^{+}=A^{*}(AA^{*})^{+}} .

Exemple d’utilisation

Article détaillé : Pseudo-solution.

Le pseudo-inverse donne une solution approchée A + b {\displaystyle A^{+}b} à un système A x = b {\displaystyle Ax=b} d’équations linéaires : celle que donnerait la méthode des moindres carrés[6].

Le système A x = b {\displaystyle Ax=b} a des solutions si et seulement si A A + b = b {\displaystyle AA^{+}b=b} , et les solutions sont alors[7] tous les vecteurs de la forme

x = A + b + ( I A + A ) w {\displaystyle x=A^{+}b+\left(I-A^{+}A\right)w} , où le vecteur w {\displaystyle w} est arbitraire (si ce n'est sa dimension).

En effet (voir supra), l'image de A {\displaystyle A} est égale au noyau de I A A + {\displaystyle I-AA^{+}} , et le noyau de A {\displaystyle A} est égal à l'image de I A + A {\displaystyle I-A^{+}A} .

Notes et références

(en)/(de) Cet article est partiellement ou en totalité issu des articles intitulés en anglais « Moore–Penrose inverse » (voir la liste des auteurs) et en allemand « Pseudoinverse » (voir la liste des auteurs).
  1. a et b (en) Adi Ben-Israel et Thomas N. E. Greville, Generalized Inverses : Theory and Applications, Springer-Verlag, , 2e éd. (1re éd. 1974) (ISBN 0-387-00293-6)
  2. (en) Eliakim Hastings Moore, « On the reciprocal of the general algebraic matrix », Bull. AMS, vol. 26,‎ , p. 394-395 (lire en ligne, consulté le )
  3. (en) Roger Penrose, « A generalized inverse for matrices », Proceedings of the Cambridge Philosophical Society, vol. 51,‎ , p. 406-413
  4. (en) Vladimir Rakočević, « On continuity of the Moore–Penrose and Drazin inverses », Matematički Vesnik, vol. 49,‎ , p. 163-72 (lire en ligne).
  5. (en) Gene H. Golub et Charles F. Van Loan, Matrix Computations, Baltimore/London, Johns Hopkins, , 3e éd. (ISBN 0-8018-5414-8), p. 257-258.
  6. (en) Roger Penrose, « On best approximate solution of linear matrix equations », Proceedings of the Cambridge Philosophical Society, vol. 52,‎ , p. 17-19.
  7. (en) M. James, « The generalised inverse », Mathematical Gazette, vol. 62, no 420,‎ , p. 109-114 (DOI 10.1017/S0025557200086460).

Voir aussi

Article connexe

Régularisation Tychonoff

Liens externes

Bibliographie

  • (de) W. Mackens et H. Voß , « Mathematik I für Studierende der Ingenieurwissenschaften »
  • (de) A. Kielbasinski et H.Schwetlick, « Numerische lineare Algebra », Deutscher Verlag der Wissenschaften, 1988
v · m
Famille de vecteurs Mathématiques
Sous-espace
Morphisme et
notions relatives
Dimension finie
Enrichissements
de structure
Développements
  • icône décorative Portail des mathématiques