1. Introducción
Esta investigación exhaustiva analiza el problema de optimización de traza relacional sobre la variedad de Stiefel desde perspectivas teóricas y computacionales. El problema fundamental abordado es la maximización de una función de traza relacional definida como fα(X) = traza(XTAX + XTD) / [traza(XTBX)]α, donde X pertenece a la variedad de Stiefel On×k = {X ∈ Rn×k : XTX = Ik}. Las matrices A y B son matrices simétricas n×n con B semidefinida positiva y con rango mayor que n-k, D es una matriz n×k, y el parámetro α varía entre 0 y 1. La condición rango(B) > n-k garantiza que el denominador permanezca positivo para todas las X factibles.
El marco de optimización en la variedad de Stiefel proporciona una base matemática rigurosa para resolver esta clase de problemas, que tiene implicaciones significativas en múltiples dominios de la ciencia de datos y el aprendizaje automático. La investigación establece condiciones necesarias en forma de problemas de valores propios no lineales con dependencia vectorial y desarrolla algoritmos numéricos convergentes basados en la iteración de campo autoconsistente (SCF).
1.1 Trabajos Previos
El documento identifica y analiza tres casos especiales significativos que han sido ampliamente estudiados en la literatura previa:
Análisis Discriminante Lineal de Fisher
Con D = 0 y α = 1, el problema se reduce a maxX∈On×k traza(XTAX) / traza(XTBX), que surge en el análisis discriminante lineal de Fisher para aprendizaje supervisado. Enfoques previos convirtieron esto en un problema de búsqueda de ceros: resolver φ(λ) = 0 donde φ(λ) := maxX∈On×k traza(XT(A - λB)X). Se demuestra que la función φ(λ) es no creciente y típicamente tiene un único cero, que puede encontrarse usando el método de Newton. Las condiciones de Karush-Kuhn-Tucker (KKT) conducen a un problema de valores propios no lineal (NEPv): H(X)X = XΛ, donde H(X) es una función matricial simétrica de X y Λ = XTH(X)X.
Análisis de Correlación Canónica Ortogonal
Con A = 0 y α = 1/2, el problema se convierte en maxX∈On×k traza(XTD) / √traza(XTBX), que emerge en el análisis de correlación canónica ortogonal (OCCA). Esta formulación sirve como núcleo de un esquema iterativo alternante. Las condiciones KKT para este caso no adoptan inmediatamente la forma NEPv pero pueden transformarse equivalentemente en una, permitiendo la solución mediante iteración SCF con postprocesamiento apropiado.
Problema de Prócrustes Desbalanceado
El tercer caso especial se conecta con el problema de Prócrustes desbalanceado, aunque menos explícitamente detallado en el extracto proporcionado. Los tres casos demuestran la amplia aplicabilidad del marco de optimización de traza relacional a través de diversos paradigmas de aprendizaje estadístico.
2. Formulación del Problema
El problema general de optimización de traza relacional se define formalmente como:
Problema (1.1a): maxXTX=Ik fα(X)
donde: fα(X) = [traza(XTAX + XTD)] / [traza(XTBX)]α
Los parámetros satisfacen: 1 ≤ k < n, Ik es la matriz identidad k×k, A, B ∈ Rn×n son simétricas con B semidefinida positiva y rango(B) > n-k, D ∈ Rn×k, variable matricial X ∈ Rn×k, y parámetro 0 ≤ α ≤ 1.
El documento también señala que un caso aparentemente más general con una constante adicional c en el numerador puede reformularse como un caso especial del Problema (1.1) mediante manipulación algebraica, demostrando la exhaustividad del marco propuesto.
3. Fundamentos Teóricos
La investigación establece varios resultados teóricos fundamentales:
Condiciones Necesarias
Las condiciones de optimalidad necesarias para el problema de optimización de traza relacional se derivan como problemas de valores propios no lineales con dependencia vectorial (NEPv). Para el caso especial del LDA de Fisher (α=1, D=0), el NEPv toma la forma H(X)X = XΛ, donde H(X) = A - λ(X)B y λ(X) = traza(XTAX)/traza(XTBX).
Existencia y Unicidad
Para el Problema (1.3) (caso LDA de Fisher), se demuestra que no existen maximizadores locales—solo existen globales. Esta propiedad importante garantiza que cualquier algoritmo convergente alcanzará una solución globalmente óptima.
Interpretación Geométrica
La optimización ocurre sobre la variedad de Stiefel, que tiene una estructura geométrica rica. La convergencia de los algoritmos se analiza en términos de la variedad de Grassmann Gk(Rn) (la colección de todos los subespacios k-dimensionales de Rn), proporcionando una perspectiva geométrica del proceso de optimización.
4. Métodos Numéricos
El documento propone y analiza la iteración de campo autoconsistente (SCF) para resolver el problema de optimización de traza relacional:
Algoritmo SCF
La iteración SCF básica para el Problema (1.3) es: H(Xi-1)Xi = XiΛi-1, comenzando con una inicialización