1. Introduction
Cette recherche approfondie étudie le problème d'optimisation du ratio de trace sur la variété de Stiefel sous ses aspects théoriques et computationnels. Le problème fondamental abordé est la maximisation d'une fonction de ratio de trace définie comme fα(X) = trace(XTAX + XTD) / [trace(XTBX)]α, où X appartient à la variété de Stiefel On×k = {X ∈ Rn×k : XTX = Ik}. Les matrices A et B sont des matrices symétriques n×n avec B semi-définie positive et de rang supérieur à n-k, D est une matrice n×k, et le paramètre α varie entre 0 et 1. La condition rang(B) > n-k garantit que le dénominateur reste positif pour tout X admissible.
Le cadre d'optimisation sur la variété de Stiefel fournit une base mathématique rigoureuse pour résoudre cette classe de problèmes, qui présente des implications significatives dans de multiples domaines de la science des données et de l'apprentissage automatique. La recherche établit des conditions nécessaires sous forme de problèmes aux valeurs propres non linéaires avec dépendance aux vecteurs propres et développe des algorithmes numériques convergents basés sur l'itération SCF (Self-Consistent Field).
1.1 Travaux Antérieurs
L'article identifie et analyse trois cas particuliers significatifs qui ont été largement étudiés dans la littérature antérieure :
Analyse Discriminante Linéaire de Fisher
Avec D = 0 et α = 1, le problème se réduit à maxX∈On×k trace(XTAX) / trace(XTBX), qui apparaît dans l'analyse discriminante linéaire de Fisher pour l'apprentissage supervisé. Les approches antérieures convertissaient ce problème en un problème de recherche de zéro : résoudre φ(λ) = 0 où φ(λ) := maxX∈On×k trace(XT(A - λB)X). La fonction φ(λ) est démontrée comme étant non-croissante et possède typiquement un zéro unique, qui peut être trouvé en utilisant la méthode de Newton. Les conditions de Karush-Kuhn-Tucker (KKT) conduisent à un problème aux valeurs propres non linéaire (NEPv) : H(X)X = XΛ, où H(X) est une fonction matricielle symétrique de X et Λ = XTH(X)X.
Analyse Canonique des Corrélations Orthogonale
Avec A = 0 et α = 1/2, le problème devient maxX∈On×k trace(XTD) / √trace(XTBX), qui émerge dans l'analyse canonique des corrélations orthogonale (OCCA). Cette formulation sert de noyau à un schéma itératif alterné. Les conditions KKT pour ce cas ne prennent pas immédiatement la forme NEPv mais peuvent être transformées de manière équivalente, permettant une résolution via l'itération SCF avec un post-traitement approprié.
Problème de Procrustes Déséquilibré
Le troisième cas particulier est lié au problème de Procrustes déséquilibré, bien que moins explicitement détaillé dans l'extrait fourni. Ces trois cas démontrent l'applicabilité étendue du cadre d'optimisation du ratio de trace à travers divers paradigmes d'apprentissage statistique.
2. Formulation du Problème
Le problème général d'optimisation du ratio de trace est formellement défini comme :
Problème (1.1a) : maxXTX=Ik fα(X)
où : fα(X) = [trace(XTAX + XTD)] / [trace(XTBX)]α
Les paramètres satisfont : 1 ≤ k < n, Ik est la matrice identité k×k, A, B ∈ Rn×n sont symétriques avec B semi-définie positive et rang(B) > n-k, D ∈ Rn×k, variable matricielle X ∈ Rn×k, et paramètre 0 ≤ α ≤ 1.
L'article note également qu'un cas apparemment plus général avec une constante c supplémentaire au numérateur peut être reformulé comme un cas particulier du Problème (1.1) via manipulation algébrique, démontrant l'exhaustivité du cadre proposé.
3. Fondements Théoriques
La recherche établit plusieurs résultats théoriques fondamentaux :
Conditions Nécessaires
Les conditions d'optimalité nécessaires pour le problème d'optimisation du ratio de trace sont dérivées sous forme de problèmes aux valeurs propres non linéaires avec dépendance aux vecteurs propres (NEPv). Pour le cas particulier de l'ADL de Fisher (α=1, D=0), le NEPv prend la forme H(X)X = XΛ, où H(X) = A - λ(X)B et λ(X) = trace(XTAX)/trace(XTBX).
Existence et Unicité
Pour le Problème (1.3) (cas de l'ADL de Fisher), il est prouvé qu'il n'existe pas de maximiseurs locaux—seuls des maximiseurs globaux existent. Cette propriété importante garantit que tout algorithme convergent atteindra une solution globalement optimale.
Interprétation Géométrique
L'optimisation s'effectue sur la variété de Stiefel, qui possède une structure géométrique riche. La convergence des algorithmes est analysée en termes de la variété de Grassmann Gk(Rn) (l'ensemble de tous les sous-espaces de dimension k de Rn), fournissant une perspective géométrique sur le processus d'optimisation.
4. Méthodes Numériques
L'article propose et analyse l'itération SCF (Self-Consistent Field) pour résoudre le problème d'optimisation du ratio de trace :
Algorithme SCF
L'itération SCF de base pour le Problème (1.3) est : H(Xi-1)Xi = XiΛi-1, en commençant avec une initialisation