Otimização de Razão de Traços com Aplicação em Aprendizado Multi-Visão

Análise teórica e computacional da otimização de razão de traços na variedade de Stiefel, com aplicações em LDA de Fisher, análise de correlação canônica e aprendizado de subespaço multi-visão.
hashratetoken.net | PDF Size: 0.8 MB

1. Introdução

Este artigo de pesquisa abrangente investiga o problema de otimização de razão de traços sobre a variedade de Stiefel sob perspectivas teóricas e computacionais. O problema fundamental abordado é a maximização de uma função de razão de traços definida como fα(X) = traço(XTAX + XTD) / [traço(XTBX)]α, onde X pertence à variedade de Stiefel On×k = {X ∈ Rn×k : XTX = Ik}. As matrizes A e B são matrizes simétricas n×n com B sendo semidefinida positiva e possuindo posto maior que n-k, D é uma matriz n×k, e o parâmetro α varia entre 0 e 1. A condição posto(B) > n-k garante que o denominador permaneça positivo para todo X viável.

O framework de otimização na variedade de Stiefel fornece uma base matemática rigorosa para resolver esta classe de problemas, que tem implicações significativas em múltiplos domínios da ciência de dados e aprendizado de máquina. A pesquisa estabelece condições necessárias na forma de problemas de autovalor não lineares com dependência de autovetores e desenvolve algoritmos numéricos convergentes baseados na iteração do campo auto-consistente (SCF).

1.1 Trabalhos Anteriores

O artigo identifica e analisa três casos especiais significativos que foram extensivamente estudados na literatura anterior:

Análise Discriminante Linear de Fisher

Com D = 0 e α = 1, o problema se reduz a maxX∈On×k traço(XTAX) / traço(XTBX), que surge na análise discriminante linear de Fisher para aprendizado supervisionado. Abordagens anteriores converteram isto em um problema de busca de zeros: resolver φ(λ) = 0 onde φ(λ) := maxX∈On×k traço(XT(A - λB)X). A função φ(λ) é provada ser não-crescente e tipicamente possui um zero único, que pode ser encontrado usando o método de Newton. As condições de Karush-Kuhn-Tucker (KKT) levam a um problema de autovalor não linear (NEPv): H(X)X = XΛ, onde H(X) é uma função matricial simétrica de X e Λ = XTH(X)X.

Análise de Correlação Canônica Ortogonal

Com A = 0 e α = 1/2, o problema se torna maxX∈On×k traço(XTD) / √traço(XTBX), que emerge na análise de correlação canônica ortogonal (OCCA). Esta formulação serve como núcleo de um esquema iterativo alternado. As condições KKT para este caso não assumem imediatamente a forma NEPv, mas podem ser equivalentemente transformadas em uma, permitindo solução via iteração SCF com pós-processamento apropriado.

Problema de Procrustes Não Balanceado

O terceiro caso especial conecta-se ao problema de Procrustes não balanceado, embora menos explicitamente detalhado no excerto fornecido. Todos os três casos demonstram a ampla aplicabilidade do framework de otimização de razão de traços através de diversos paradigmas de aprendizado estatístico.

2. Formulação do Problema

O problema geral de otimização de razão de traços é formalmente definido como:

Problema (1.1a): maxXTX=Ik fα(X)

onde: fα(X) = [traço(XTAX + XTD)] / [traço(XTBX)]α

Os parâmetros satisfazem: 1 ≤ k < n, Ik é a matriz identidade k×k, A, B ∈ Rn×n são simétricas com B semidefinida positiva e posto(B) > n-k, D ∈ Rn×k, variável matricial X ∈ Rn×k, e parâmetro 0 ≤ α ≤ 1.

O artigo também observa que um caso aparentemente mais geral com uma constante adicional c no numerador pode ser reformulado como um caso especial do Problema (1.1) através de manipulação algébrica, demonstrando a abrangência do framework proposto.

3. Fundamentos Teóricos

A pesquisa estabelece vários resultados teóricos fundamentais:

Condições Necessárias

As condições de otimalidade necessárias para o problema de otimização de razão de traços são derivadas como problemas de autovalor não lineares com dependência de autovetores (NEPv). Para o caso especial da LDA de Fisher (α=1, D=0), o NEPv assume a forma H(X)X = XΛ, onde H(X) = A - λ(X)B e λ(X) = traço(XTAX)/traço(XTBX).

Existência e Unicidade

Para o Problema (1.3) (caso da LDA de Fisher), é provado que não existem maximizadores locais—apenas globais existem. Esta propriedade importante garante que qualquer algoritmo convergente alcançará uma solução globalmente ótima.

Interpretação Geométrica

A otimização ocorre sobre a variedade de Stiefel, que possui estrutura geométrica rica. A convergência dos algoritmos é analisada em termos da variedade de Grassmann Gk(Rn) (a coleção de todos os subespaços k-dimensionais de Rn), fornecendo uma perspectiva geométrica sobre o processo de otimização.

4. Métodos Numéricos

O artigo propõe e analisa a iteração do campo auto-consistente (SCF) para resolver o problema de otimização de razão de traços:

Algoritmo SCF

A iteração SCF básica para o Problema (1.3) é: H(Xi-1)Xi = XiΛi-1, começando com uma inicialização