1. Einleitung
Diese umfassende Forschungsarbeit untersucht das Trace-Ratio-Optimierungsproblem auf der Stiefel-Mannigfaltigkeit aus theoretischer und rechnerischer Perspektive. Das grundlegende Problem ist die Maximierung einer Trace-Ratio-Funktion, definiert als fα(X) = trace(XTAX + XTD) / [trace(XTBX)]α, wobei X zur Stiefel-Mannigfaltigkeit On×k = {X ∈ Rn×k : XTX = Ik} gehört. Die Matrizen A und B sind symmetrische n×n-Matrizen, wobei B positiv semidefinit ist und einen Rang größer als n-k aufweist, D ist eine n×k-Matrix und der Parameter α liegt zwischen 0 und 1. Die Bedingung Rang(B) > n-k stellt sicher, dass der Nenner für alle zulässigen X positiv bleibt.
Der Optimierungsrahmen auf der Stiefel-Mannigfaltigkeit bietet eine rigorose mathematische Grundlage zur Lösung dieser Problemklasse, die bedeutende Implikationen in zahlreichen Bereichen der Datenwissenschaft und des maschinellen Lernens hat. Die Forschung etabliert notwendige Bedingungen in Form nichtlinearer Eigenwertprobleme mit Eigenvektorabhängigkeit und entwickelt konvergente numerische Algorithmen basierend auf der Self-Consistent-Field (SCF)-Iteration.
1.1 Vorherige Arbeiten
Die Arbeit identifiziert und analysiert drei bedeutende Spezialfälle, die in früherer Literatur ausführlich untersucht wurden:
Fishers Lineare Diskriminanzanalyse
Mit D = 0 und α = 1 reduziert sich das Problem auf maxX∈On×k trace(XTAX) / trace(XTBX), das bei Fishers linearer Diskriminanzanalyse für überwachtes Lernen auftritt. Bisherige Ansätze wandelten dies in ein Nullstellenproblem um: löse φ(λ) = 0, wobei φ(λ) := maxX∈On×k trace(XT(A - λB)X). Die Funktion φ(λ) erweist sich als nicht-steigend und hat typischerweise eine eindeutige Nullstelle, die mit dem Newton-Verfahren gefunden werden kann. Die Karush-Kuhn-Tucker (KKT)-Bedingungen führen zu einem nichtlinearen Eigenwertproblem (NEPv): H(X)X = XΛ, wobei H(X) eine symmetrische matrixwertige Funktion von X ist und Λ = XTH(X)X.
Orthogonale Kanonische Korrelationsanalyse
Mit A = 0 und α = 1/2 wird das Problem zu maxX∈On×k trace(XTD) / √trace(XTBX), das in der orthogonalen kanonischen Korrelationsanalyse (OCCA) auftritt. Diese Formulierung dient als Kern eines alternierenden iterativen Schemas. Die KKT-Bedingungen für diesen Fall nehmen nicht unmittelbar die NEPv-Form an, können jedoch äquivalent in eine transformiert werden, was eine Lösung via SCF-Iteration mit geeigneter Nachbearbeitung ermöglicht.
Unbalanciertes Procrustes-Problem
Der dritte Spezialfall steht in Verbindung mit dem unbalancierten Procrustes-Problem, wenn auch im bereitgestellten Auszug weniger explizit detailliert. Alle drei Fälle demonstrieren die breite Anwendbarkeit des Trace-Ratio-Optimierungsrahmens über diverse statistische Lernparadigmen hinweg.
2. Problemformulierung
Das allgemeine Trace-Ratio-Optimierungsproblem wird formal definiert als:
Problem (1.1a): maxXTX=Ik fα(X)
wobei: fα(X) = [trace(XTAX + XTD)] / [trace(XTBX)]α
Die Parameter erfüllen: 1 ≤ k < n, Ik ist die k×k-Einheitsmatrix, A, B ∈ Rn×n sind symmetrisch mit B positiv semidefinit und Rang(B) > n-k, D ∈ Rn×k, Matrixvariable X ∈ Rn×k und Parameter 0 ≤ α ≤ 1.
Die Arbeit merkt ebenfalls an, dass ein scheinbar allgemeinerer Fall mit einer zusätzlichen Konstante c im Zähler durch algebraische Umformung als Spezialfall von Problem (1.1) reformuliert werden kann, was die Vollständigkeit des vorgeschlagenen Rahmens demonstriert.
3. Theoretische Grundlagen
Die Forschung etabliert mehrere fundamentale theoretische Resultate:
Notwendige Bedingungen
Die notwendigen Optimalitätsbedingungen für das Trace-Ratio-Optimierungsproblem werden als nichtlineare Eigenwertprobleme mit Eigenvektorabhängigkeit (NEPv) hergeleitet. Für den Spezialfall von Fishers LDA (α=1, D=0) nimmt das NEPv die Form H(X)X = XΛ an, wobei H(X) = A - λ(X)B und λ(X) = trace(XTAX)/trace(XTBX).
Existenz und Eindeutigkeit
Für Problem (1.3) (Fishers LDA Fall) wird bewiesen, dass es keine lokalen Maximierer gibt - nur globale existieren. Diese wichtige Eigenschaft stellt sicher, dass jeder konvergente Algorithmus eine global optimale Lösung erreicht.
Geometrische Interpretation
Die Optimierung erfolgt über der Stiefel-Mannigfaltigkeit, die eine reiche geometrische Struktur besitzt. Die Konvergenz von Algorithmen wird in Bezug auf die Grassmann-Mannigfaltigkeit Gk(Rn) (die Menge aller k-dimensionalen Unterräume von Rn) analysiert, was eine geometrische Perspektive auf den Optimierungsprozess bietet.
4. Numerische Verfahren
Die Arbeit schlägt die Self-Consistent-Field (SCF)-Iteration zur Lösung des Trace-Ratio-Optimierungsproblems vor und analysiert sie:
SCF-Algorithmus
Die grundlegende SCF-Iteration für Problem (1.3) lautet: H(Xi-1)Xi = XiΛi-1, beginnend mit einer initialen