1. Introduzione
Questo articolo di ricerca completo investiga il problema di ottimizzazione del rapporto delle tracce sulla varietà di Stiefel da prospettive sia teoriche che computazionali. Il problema fondamentale affrontato è la massimizzazione di una funzione rapporto tracce definita come fα(X) = traccia(XTAX + XTD) / [traccia(XTBX)]α, dove X appartiene alla varietà di Stiefel On×k = {X ∈ Rn×k : XTX = Ik}. Le matrici A e B sono matrici simmetriche n×n con B semidefinita positiva e con rango maggiore di n-k, D è una matrice n×k, e il parametro α varia tra 0 e 1. La condizione rango(B) > n-k garantisce che il denominatore rimanga positivo per tutti gli X ammissibili.
Il framework di ottimizzazione sulla varietà di Stiefel fornisce una base matematica rigorosa per risolvere questa classe di problemi, che ha implicazioni significative in molteplici domini della scienza dei dati e dell'apprendimento automatico. La ricerca stabilisce condizioni necessarie sotto forma di problemi agli autovalori non lineari con dipendenza dagli autovettori e sviluppa algoritmi numerici convergenti basati sull'iterazione SCF (self-consistent field).
1.1 Lavoro Precedente
L'articolo identifica e analizza tre casi speciali significativi che sono stati ampiamente studiati in letteratura:
Analisi Discriminante Lineare di Fisher
Con D = 0 e α = 1, il problema si riduce a maxX∈On×k traccia(XTAX) / traccia(XTBX), che sorge nell'analisi discriminante lineare di Fisher per l'apprendimento supervisionato. Approcci precedenti convertivano questo in un problema di ricerca degli zeri: risolvere φ(λ) = 0 dove φ(λ) := maxX∈On×k traccia(XT(A - λB)X). La funzione φ(λ) è dimostrata essere non-crescente e tipicamente ha un unico zero, che può essere trovato usando il metodo di Newton. Le condizioni di Karush-Kuhn-Tucker (KKT) portano a un problema agli autovalori non lineare (NEPv): H(X)X = XΛ, dove H(X) è una funzione matriciale simmetrica di X e Λ = XTH(X)X.
Analisi Canonica delle Correlazioni Ortogonale
Con A = 0 e α = 1/2, il problema diventa maxX∈On×k traccia(XTD) / √traccia(XTBX), che emerge nell'analisi canonica delle correlazioni ortogonale (OCCA). Questa formulazione serve come nucleo di uno schema iterativo alternato. Le condizioni KKT per questo caso non assumono immediatamente la forma NEPv ma possono essere equivalentemente trasformate in una, abilitando la soluzione via iterazione SCF con appropriata post-elaborazione.
Problema di Procruste Sbilanciato
Il terzo caso speciale si collega al problema di Procruste sbilanciato, sebbene meno esplicitamente dettagliato nell'estratto fornito. Tutti e tre i casi dimostrano l'ampia applicabilità del framework di ottimizzazione del rapporto delle tracce attraverso diversi paradigmi di apprendimento statistico.
2. Formulazione del Problema
Il problema generale di ottimizzazione del rapporto delle tracce è formalmente definito come:
Problema (1.1a): maxXTX=Ik fα(X)
dove: fα(X) = [traccia(XTAX + XTD)] / [traccia(XTBX)]α
I parametri soddisfano: 1 ≤ k < n, Ik è la matrice identità k×k, A, B ∈ Rn×n sono simmetriche con B semidefinita positiva e rango(B) > n-k, D ∈ Rn×k, variabile matriciale X ∈ Rn×k, e parametro 0 ≤ α ≤ 1.
L'articolo nota anche che un caso apparentemente più generale con una costante aggiuntiva c al numeratore può essere riformulato come caso speciale del Problema (1.1) attraverso manipolazione algebrica, dimostrando la completezza del framework proposto.
3. Fondamenti Teorici
La ricerca stabilisce diversi risultati teorici fondamentali:
Condizioni Necessarie
Le condizioni di ottimalità necessarie per il problema di ottimizzazione del rapporto delle tracce sono derivate come problemi agli autovalori non lineari con dipendenza dagli autovettori (NEPv). Per il caso speciale dell'LDA di Fisher (α=1, D=0), il NEPv assume la forma H(X)X = XΛ, dove H(X) = A - λ(X)B e λ(X) = traccia(XTAX)/traccia(XTBX).
Esistenza e Unicità
Per il Problema (1.3) (caso LDA di Fisher), è dimostrato che non esistono massimizzatori locali—esistono solo globali. Questa proprietà importante garantisce che qualsiasi algoritmo convergente raggiungerà una soluzione globalmente ottimale.
Interpretazione Geometrica
L'ottimizzazione avviene sulla varietà di Stiefel, che ha una struttura geometrica ricca. La convergenza degli algoritmi è analizzata in termini della varietà di Grassmann Gk(Rn) (la collezione di tutti i sottospazi k-dimensionali di Rn), fornendo una prospettiva geometrica sul processo di ottimizzazione.
4. Metodi Numerici
L'articolo propone e analizza l'iterazione del campo auto-coerente (SCF) per risolvere il problema di ottimizzazione del rapporto delle tracce:
Algoritmo SCF
L'iterazione SCF base per il Problema (1.3) è: H(Xi-1)Xi = XiΛi-1, partendo da un'inizializzazione