1. Giriş

Bu kapsamlı araştırma makalesi, Stiefel çokkatlısı üzerindeki iz oranı optimizasyon problemini hem teorik hem de hesaplamalı perspektiflerden inceler. Ele alınan temel problem, f_α(X) = iz(X^TAX + X^TD) / [iz(X^TBX)]^α şeklinde tanımlanan iz oranı fonksiyonunun maksimizasyonudur; burada X, Stiefel çokkatlısı O_n×k = {X ∈ R^n×k : X^TX = I_k} kümesine aittir. A ve B matrisleri simetrik n×n matrisler olup B pozitif yarı-kesin ve rankı n-k'den büyüktür, D bir n×k matrisidir ve α parametresi 0 ile 1 arasında değişir. rank(B) > n-k koşulu, paydanın tüm uygun X değerleri için pozitif kalmasını sağlar.

Stiefel çokkatlısı optimizasyon çerçevesi, bu problem sınıfını çözmek için titiz bir matematiksel temel sağlar ve veri bilimi ile makine öğrenmesinin birden fazla alanında önemli etkilere sahiptir. Araştırma, özvektör bağımlılığına sahip doğrusal olmayan özdeğer problemleri şeklinde gerekli koşulları oluşturur ve öz-tutarlı alan (SCF) yinelemesine dayanan yakınsak sayısal algoritmalar geliştirir.

1.1 Önceki Çalışmalar

Makale, önceki literatürde kapsamlı şekilde incelenen üç önemli özel durumu tanımlar ve analiz eder:

Fisher'in Doğrusal Ayırtaç Analizi

D = 0 ve α = 1 ile problem, denetimli öğrenme için Fisher'in doğrusal ayırtaç analizinde ortaya çıkan max_{X∈O_n×k} iz(X^TAX) / iz(X^TBX) şeklinde indirgenir. Önceki yaklaşımlar bunu bir sıfır bulma problemine dönüştürdü: φ(λ) = 0 denklemini çözün, burada φ(λ) := max_{X∈O_n×k} iz(X^T(A - λB)X). φ(λ) fonksiyonunun artmayan olduğu kanıtlanmıştır ve tipik olarak Newton yöntemi kullanılarak bulunabilen tek bir sıfıra sahiptir. Karush-Kuhn-Tucker (KKT) koşulları, doğrusal olmayan bir özdeğer problemine (NEPv) yol açar: H(X)X = XΛ, burada H(X), X'in simetrik matris değerli bir fonksiyonudur ve Λ = X^TH(X)X.

Dikey Kanonik Korelasyon Analizi

A = 0 ve α = 1/2 ile problem, dikey kanonik korelasyon analizinde (OCCA) ortaya çıkan max_{X∈O_n×k} iz(X^TD) / √iz(X^TBX) haline gelir. Bu formülasyon, alternatif bir yinelemeli şemanın çekirdeği olarak hizmet eder. Bu durum için KKT koşulları hemen NEPv formunu almaz ancak eşdeğer şekilde uygun son-işlem ile SCF yinelemesi yoluyla çözüme olanak tanıyan bir forma dönüştürülebilir.

Dengesiz Procrustes Problemi

Üçüncü özel durum, dengesiz Procrustes problemi ile bağlantılıdır, ancak sağlanan alıntıda daha az açık şekilde ayrıntılandırılmıştır. Her üç durum da iz oranı optimizasyon çerçevesinin çeşitli istatistiksel öğrenme paradigmaları boyunca geniş uygulanabilirliğini göstermektedir.

2. Problem Formülasyonu

Genel iz oranı optimizasyon problemi resmi olarak şu şekilde tanımlanır:

Problem (1.1a): max_{X^TX=I_k} f_α(X)

burada: f_α(X) = [iz(X^TAX + X^TD)] / [iz(X^TBX)]^α

Parametreler şu koşulları sağlar: 1 ≤ k < n, I_k k×k birim matrisidir, A, B ∈ R^n×n simetriktir ve B pozitif yarı-kesin ve rank(B) > n-k'dir, D ∈ R^n×k, matris değişkeni X ∈ R^n×k ve parametre 0 ≤ α ≤ 1.

Makale ayrıca, payda ek bir c sabiti içeren görünüşte daha genel bir durumun, cebirsel manipülasyon yoluyla Problem (1.1)'in özel bir durumu olarak yeniden formüle edilebileceğini not ederek önerilen çerçevenin kapsamlılığını göstermektedir.

3. Teorik Temeller

Araştırma, birkaç temel teorik sonuç oluşturur:

Gerekli Koşullar

İz oranı optimizasyon problemi için gerekli optimalite koşulları, özvektör bağımlılığına sahip doğrusal olmayan özdeğer problemleri (NEPv) olarak türetilmiştir. Fisher LDA özel durumu (α=1, D=0) için NEPv, H(X)X = XΛ formunu alır; burada H(X) = A - λ(X)B ve λ(X) = iz(X^TAX)/iz(X^TBX).

Varlık ve Teklik

Problem (1.3) (Fisher LDA durumu) için, yerel maksimizörlerin olmadığı - sadece küresel olanların var olduğu kanıtlanmıştır. Bu önemli özellik, herhangi bir yakınsak algoritmanın küresel olarak optimal bir çözüme ulaşacağını garanti eder.

Geometrik Yorum

Optimizasyon, zengin geometrik yapıya sahip olan Stiefel çokkatlısı üzerinde gerçekleşir. Algoritmaların yakınsaması, Grassmann çokkatlısı G_k(Rⁿ) (Rⁿ'nin tüm k-boyutlu altuzaylarının koleksiyonu) cinsinden analiz edilerek optimizasyon sürecine geometrik bir perspektif sağlanır.

4. Sayısal Yöntemler

Makale, iz oranı optimizasyon problemini çözmek için öz-tutarlı alan (SCF) yinelemesini önermekte ve analiz etmektedir:

SCF Algoritması

Problem (1.3) için temel SCF yinelemesi şudur: H(X_i-1)X_i = X_iΛ_i-1, bir başlangıç