迹比率优化及其喺多视角学习中嘅应用

针对Stiefel流形上迹比率优化嘅理论与计算分析,涵盖Fisher线性判别、典型相关分析同多视角子空间学习等应用场景。
hashratetoken.net | PDF Size: 0.8 MB

1. 引言

呢篇综合性研究论文从理论同计算两个角度,深入探讨咗Stiefel流形上嘅迹比率优化问题。核心问题在于最大化定义为 fα(X) = trace(XTAX + XTD) / [trace(XTBX)]α 嘅迹比率函数,其中 X 属于Stiefel流形 On×k = {X ∈ Rn×k : XTX = Ik}。矩阵 A 同 B 係对称嘅 n×n 矩阵,B 为半正定且秩大于 n-k,D 係 n×k 矩阵,参数 α 取值范围为0到1。秩条件 rank(B) > n-k 确保对所有可行 X 分母保持正值。

Stiefel流形优化框架为解决呢类问题提供咗严谨数学基础,对数据科学同机器学习多个领域具有重要影响。研究建立咗具有特征向量依赖性嘅非线性特征值问题形式嘅必要条件,并基于自洽场迭代开发咗收敛数值算法。

1.1 前人研究

本文识别并分析咗前人文献中深入研究嘅三个重要特例:

Fisher线性判别分析

当 D = 0 且 α = 1 时,问题简化为 maxX∈On×k trace(XTAX) / trace(XTBX),出现喺监督学习嘅Fisher线性判别分析中。以往方法将其转化为寻零问题:求解 φ(λ) = 0,其中 φ(λ) := maxX∈On×k trace(XT(A - λB)X)。函数 φ(λ) 被证明係非递增且通常有唯一零点,可用牛顿法求解。KKT条件导致非线性特征值问题:H(X)X = XΛ,其中 H(X) 係 X 嘅对称矩阵值函数,Λ = XTH(X)X。

正交典型相关分析

当 A = 0 且 α = 1/2 时,问题变为 maxX∈On×k trace(XTD) / √trace(XTBX),出现喺正交典型相关分析中。此公式作为交替迭代方案嘅核心。该情况嘅KKT条件唔会立即呈现NEPv形式,但可通过等效变换转化为NEPv,从而通过适当后处理嘅SCF迭代求解。

非平衡Procrustes问题

第三个特例与非平衡Procrustes问题相关,虽然提供嘅摘录中未详细说明。所有三个案例都展示咗迹比率优化框架喺不同统计学习范式中嘅广泛适用性。

2. 问题表述

一般迹比率优化问题正式定义为:

问题 (1.1a): maxXTX=Ik fα(X)

其中: fα(X) = [trace(XTAX + XTD)] / [trace(XTBX)]α

参数满足:1 ≤ k < n,Ik 为 k×k 单位矩阵,A, B ∈ Rn×n 为对称矩阵且 B 半正定、秩大于 n-k,D ∈ Rn×k,矩阵变量 X ∈ Rn×k,参数 0 ≤ α ≤ 1。

本文亦指出,分子中包含额外常数 c 嘅看似更一般情况,可通过代数操作重新表述为问题(1.1)嘅特例,展示咗所提出框架嘅全面性。

3. 理论基础

研究建立咗几个基本理论结果:

必要条件

迹比率优化问题嘅必要最优性条件被推导为具有特征向量依赖性嘅非线性特征值问题。对于Fisher LDA特例(α=1, D=0),NEPv形式为 H(X)X = XΛ,其中 H(X) = A - λ(X)B 且 λ(X) = trace(XTAX)/trace(XTBX)。

存在性与唯一性

对于问题(1.3)(Fisher LDA情况),证明咗不存在局部极大值——仅存在全局极大值。此重要性质确保任何收敛算法都将达到全局最优解。

几何解释

优化发生喺具有丰富几何结构嘅Stiefel流形上。算法收敛性根据Grassmann流形 Gk(Rn)(Rn 所有k维子空间嘅集合)进行分析,为优化过程提供几何视角。

4. 数值方法

本文提出并分析咗用于求解迹比率优化问题嘅自洽场迭代:

SCF算法

问题(1.3)嘅基本SCF迭代为:H(Xi-1)Xi = XiΛi-1,从初始值开始