1. Giriş
Bu kapsamlı araştırma makalesi, Stiefel çokkatlısı üzerindeki iz oranı optimizasyon problemini hem teorik hem de hesaplamalı perspektiflerden inceler. Ele alınan temel problem, fα(X) = iz(XTAX + XTD) / [iz(XTBX)]α şeklinde tanımlanan iz oranı fonksiyonunun maksimizasyonudur; burada X, Stiefel çokkatlısı On×k = {X ∈ Rn×k : XTX = Ik} kümesine aittir. A ve B matrisleri simetrik n×n matrisler olup B pozitif yarı-kesin ve rankı n-k'den büyüktür, D bir n×k matrisidir ve α parametresi 0 ile 1 arasında değişir. rank(B) > n-k koşulu, paydanın tüm uygun X değerleri için pozitif kalmasını sağlar.
Stiefel çokkatlısı optimizasyon çerçevesi, bu problem sınıfını çözmek için titiz bir matematiksel temel sağlar ve veri bilimi ile makine öğrenmesinin birden fazla alanında önemli etkilere sahiptir. Araştırma, özvektör bağımlılığına sahip doğrusal olmayan özdeğer problemleri şeklinde gerekli koşulları oluşturur ve öz-tutarlı alan (SCF) yinelemesine dayanan yakınsak sayısal algoritmalar geliştirir.
1.1 Önceki Çalışmalar
Makale, önceki literatürde kapsamlı şekilde incelenen üç önemli özel durumu tanımlar ve analiz eder:
Fisher'in Doğrusal Ayırtaç Analizi
D = 0 ve α = 1 ile problem, denetimli öğrenme için Fisher'in doğrusal ayırtaç analizinde ortaya çıkan maxX∈On×k iz(XTAX) / iz(XTBX) şeklinde indirgenir. Önceki yaklaşımlar bunu bir sıfır bulma problemine dönüştürdü: φ(λ) = 0 denklemini çözün, burada φ(λ) := maxX∈On×k iz(XT(A - λB)X). φ(λ) fonksiyonunun artmayan olduğu kanıtlanmıştır ve tipik olarak Newton yöntemi kullanılarak bulunabilen tek bir sıfıra sahiptir. Karush-Kuhn-Tucker (KKT) koşulları, doğrusal olmayan bir özdeğer problemine (NEPv) yol açar: H(X)X = XΛ, burada H(X), X'in simetrik matris değerli bir fonksiyonudur ve Λ = XTH(X)X.
Dikey Kanonik Korelasyon Analizi
A = 0 ve α = 1/2 ile problem, dikey kanonik korelasyon analizinde (OCCA) ortaya çıkan maxX∈On×k iz(XTD) / √iz(XTBX) haline gelir. Bu formülasyon, alternatif bir yinelemeli şemanın çekirdeği olarak hizmet eder. Bu durum için KKT koşulları hemen NEPv formunu almaz ancak eşdeğer şekilde uygun son-işlem ile SCF yinelemesi yoluyla çözüme olanak tanıyan bir forma dönüştürülebilir.
Dengesiz Procrustes Problemi
Üçüncü özel durum, dengesiz Procrustes problemi ile bağlantılıdır, ancak sağlanan alıntıda daha az açık şekilde ayrıntılandırılmıştır. Her üç durum da iz oranı optimizasyon çerçevesinin çeşitli istatistiksel öğrenme paradigmaları boyunca geniş uygulanabilirliğini göstermektedir.
2. Problem Formülasyonu
Genel iz oranı optimizasyon problemi resmi olarak şu şekilde tanımlanır:
Problem (1.1a): maxXTX=Ik fα(X)
burada: fα(X) = [iz(XTAX + XTD)] / [iz(XTBX)]α
Parametreler şu koşulları sağlar: 1 ≤ k < n, Ik k×k birim matrisidir, A, B ∈ Rn×n simetriktir ve B pozitif yarı-kesin ve rank(B) > n-k'dir, D ∈ Rn×k, matris değişkeni X ∈ Rn×k ve parametre 0 ≤ α ≤ 1.
Makale ayrıca, payda ek bir c sabiti içeren görünüşte daha genel bir durumun, cebirsel manipülasyon yoluyla Problem (1.1)'in özel bir durumu olarak yeniden formüle edilebileceğini not ederek önerilen çerçevenin kapsamlılığını göstermektedir.
3. Teorik Temeller
Araştırma, birkaç temel teorik sonuç oluşturur:
Gerekli Koşullar
İz oranı optimizasyon problemi için gerekli optimalite koşulları, özvektör bağımlılığına sahip doğrusal olmayan özdeğer problemleri (NEPv) olarak türetilmiştir. Fisher LDA özel durumu (α=1, D=0) için NEPv, H(X)X = XΛ formunu alır; burada H(X) = A - λ(X)B ve λ(X) = iz(XTAX)/iz(XTBX).
Varlık ve Teklik
Problem (1.3) (Fisher LDA durumu) için, yerel maksimizörlerin olmadığı - sadece küresel olanların var olduğu kanıtlanmıştır. Bu önemli özellik, herhangi bir yakınsak algoritmanın küresel olarak optimal bir çözüme ulaşacağını garanti eder.
Geometrik Yorum
Optimizasyon, zengin geometrik yapıya sahip olan Stiefel çokkatlısı üzerinde gerçekleşir. Algoritmaların yakınsaması, Grassmann çokkatlısı Gk(Rn) (Rn'nin tüm k-boyutlu altuzaylarının koleksiyonu) cinsinden analiz edilerek optimizasyon sürecine geometrik bir perspektif sağlanır.
4. Sayısal Yöntemler
Makale, iz oranı optimizasyon problemini çözmek için öz-tutarlı alan (SCF) yinelemesini önermekte ve analiz etmektedir:
SCF Algoritması
Problem (1.3) için temel SCF yinelemesi şudur: H(Xi-1)Xi = XiΛi-1, bir başlangıç