1. Introdução
Este artigo de pesquisa abrangente investiga o problema de otimização de razão de traços sobre a variedade de Stiefel sob perspectivas teóricas e computacionais. O problema fundamental abordado é a maximização de uma função de razão de traços definida como fα(X) = traço(XTAX + XTD) / [traço(XTBX)]α, onde X pertence à variedade de Stiefel On×k = {X ∈ Rn×k : XTX = Ik}. As matrizes A e B são matrizes simétricas n×n com B sendo semidefinida positiva e possuindo posto maior que n-k, D é uma matriz n×k, e o parâmetro α varia entre 0 e 1. A condição posto(B) > n-k garante que o denominador permaneça positivo para todo X viável.
O framework de otimização na variedade de Stiefel fornece uma base matemática rigorosa para resolver esta classe de problemas, que tem implicações significativas em múltiplos domínios da ciência de dados e aprendizado de máquina. A pesquisa estabelece condições necessárias na forma de problemas de autovalor não lineares com dependência de autovetores e desenvolve algoritmos numéricos convergentes baseados na iteração do campo auto-consistente (SCF).
1.1 Trabalhos Anteriores
O artigo identifica e analisa três casos especiais significativos que foram extensivamente estudados na literatura anterior:
Análise Discriminante Linear de Fisher
Com D = 0 e α = 1, o problema se reduz a maxX∈On×k traço(XTAX) / traço(XTBX), que surge na análise discriminante linear de Fisher para aprendizado supervisionado. Abordagens anteriores converteram isto em um problema de busca de zeros: resolver φ(λ) = 0 onde φ(λ) := maxX∈On×k traço(XT(A - λB)X). A função φ(λ) é provada ser não-crescente e tipicamente possui um zero único, que pode ser encontrado usando o método de Newton. As condições de Karush-Kuhn-Tucker (KKT) levam a um problema de autovalor não linear (NEPv): H(X)X = XΛ, onde H(X) é uma função matricial simétrica de X e Λ = XTH(X)X.
Análise de Correlação Canônica Ortogonal
Com A = 0 e α = 1/2, o problema se torna maxX∈On×k traço(XTD) / √traço(XTBX), que emerge na análise de correlação canônica ortogonal (OCCA). Esta formulação serve como núcleo de um esquema iterativo alternado. As condições KKT para este caso não assumem imediatamente a forma NEPv, mas podem ser equivalentemente transformadas em uma, permitindo solução via iteração SCF com pós-processamento apropriado.
Problema de Procrustes Não Balanceado
O terceiro caso especial conecta-se ao problema de Procrustes não balanceado, embora menos explicitamente detalhado no excerto fornecido. Todos os três casos demonstram a ampla aplicabilidade do framework de otimização de razão de traços através de diversos paradigmas de aprendizado estatístico.
2. Formulação do Problema
O problema geral de otimização de razão de traços é formalmente definido como:
Problema (1.1a): maxXTX=Ik fα(X)
onde: fα(X) = [traço(XTAX + XTD)] / [traço(XTBX)]α
Os parâmetros satisfazem: 1 ≤ k < n, Ik é a matriz identidade k×k, A, B ∈ Rn×n são simétricas com B semidefinida positiva e posto(B) > n-k, D ∈ Rn×k, variável matricial X ∈ Rn×k, e parâmetro 0 ≤ α ≤ 1.
O artigo também observa que um caso aparentemente mais geral com uma constante adicional c no numerador pode ser reformulado como um caso especial do Problema (1.1) através de manipulação algébrica, demonstrando a abrangência do framework proposto.
3. Fundamentos Teóricos
A pesquisa estabelece vários resultados teóricos fundamentais:
Condições Necessárias
As condições de otimalidade necessárias para o problema de otimização de razão de traços são derivadas como problemas de autovalor não lineares com dependência de autovetores (NEPv). Para o caso especial da LDA de Fisher (α=1, D=0), o NEPv assume a forma H(X)X = XΛ, onde H(X) = A - λ(X)B e λ(X) = traço(XTAX)/traço(XTBX).
Existência e Unicidade
Para o Problema (1.3) (caso da LDA de Fisher), é provado que não existem maximizadores locais—apenas globais existem. Esta propriedade importante garante que qualquer algoritmo convergente alcançará uma solução globalmente ótima.
Interpretação Geométrica
A otimização ocorre sobre a variedade de Stiefel, que possui estrutura geométrica rica. A convergência dos algoritmos é analisada em termos da variedade de Grassmann Gk(Rn) (a coleção de todos os subespaços k-dimensionais de Rn), fornecendo uma perspectiva geométrica sobre o processo de otimização.
4. Métodos Numéricos
O artigo propõe e analisa a iteração do campo auto-consistente (SCF) para resolver o problema de otimização de razão de traços:
Algoritmo SCF
A iteração SCF básica para o Problema (1.3) é: H(Xi-1)Xi = XiΛi-1, começando com uma inicialização