1. 緒論
本綜合研究論文從理論與計算雙重角度探討Stiefel流形上的跡比率最佳化問題。核心問題在於最大化定義為 fα(X) = trace(XTAX + XTD) / [trace(XTBX)]α 的跡比率函數,其中 X 屬於Stiefel流形 On×k = {X ∈ Rn×k : XTX = Ik}。矩陣 A 與 B 為對稱 n×n 矩陣,其中 B 為半正定且秩次大於 n-k,D 為 n×k 矩陣,參數 α 取值範圍介於 0 到 1 之間。條件 rank(B) > n-k 確保對所有可行解 X 而言分母恆為正數。
Stiefel流形最佳化架構為解決此類問題提供了嚴謹的數學基礎,對資料科學與機器學習的多個領域具有重要意義。本研究建立了具特徵向量依賴性的非線性特徵值問題形式之必要條件,並基於自洽場迭代法開發了收斂數值演算法。
1.1 先前研究
本文識別並分析了先前文獻中廣泛研究的三個重要特例:
Fisher線性判別分析
當 D = 0 且 α = 1 時,問題簡化為 maxX∈On×k trace(XTAX) / trace(XTBX),此形式出現於監督式學習中的Fisher線性判別分析。既往方法將其轉化為尋零問題:求解 φ(λ) = 0,其中 φ(λ) := maxX∈On×k trace(XT(A - λB)X)。函數 φ(λ) 經證明具有非遞增性且通常存在唯一零點,可透過牛頓法求解。其Karush-Kuhn-Tucker條件導出非線性特徵值問題:H(X)X = XΛ,其中 H(X) 為對稱矩陣值函數,且 Λ = XTH(X)X。
正交典型相關分析
當 A = 0 且 α = 1/2 時,問題轉變為 maxX∈On×k trace(XTD) / √trace(XTBX),此形式見於正交典型相關分析。該表述可作為交替迭代方案的核心運算。此情況下的KKT條件雖未直接呈現NEPv形式,但可透過等效轉化並配合適當後處理,透過SCF迭代求解。
非平衡Procrustes問題
第三個特例與非平衡Procrustes問題相關,儘管在提供節錄中未明確詳述。所有案例皆展示了跡比率最佳化架構在多元統計學習範式中的廣泛適用性。
2. 問題表述
廣義跡比率最佳化問題正式定義如下:
問題 (1.1a): maxXTX=Ik fα(X)
其中: fα(X) = [trace(XTAX + XTD)] / [trace(XTBX)]α
參數滿足:1 ≤ k < n,Ik 為 k×k 單位矩陣,A, B ∈ Rn×n 為對稱矩陣且 B 為半正定並滿足 rank(B) > n-k,D ∈ Rn×k,矩陣變數 X ∈ Rn×k,參數 0 ≤ α ≤ 1。
本文亦指出,分子中含額外常數 c 的看似更廣義情形,可透過代數運算重整為問題(1.1)的特例,展現了所提架構的完備性。
3. 理論基礎
本研究建立了若干基礎理論結果:
必要條件
推導出跡比率最佳化問題的必要最佳化條件為具特徵向量依賴性的非線性特徵值問題。針對Fisher判別分析特例(α=1, D=0),其NEPv形式為 H(X)X = XΛ,其中 H(X) = A - λ(X)B 且 λ(X) = trace(XTAX)/trace(XTBX)。
存在性與唯一性
針對問題(1.3)(Fisher判別分析案例),證明了不存在局部極大值——僅存在全域極大值。此重要性質確保任何收斂演算法皆能達到全域最佳解。
幾何詮釋
最佳化過程在具有豐富幾何結構的Stiefel流形上進行。演算法收斂性分析基於Grassmann流形 Gk(Rn)(即 Rn 中所有 k 維子空間的集合),為最佳化過程提供了幾何視角的洞察。
4. 數值方法
本文提出並分析了用於求解跡比率最佳化問題的自洽場迭代法:
SCF演算法
針對問題(1.3)的基本SCF迭代格式為:H(Xi-1)Xi = XiΛi-1,以初始矩陣