1. Введение
Данное комплексное исследование рассматривает задачу оптимизации следа на многообразии Штифеля с теоретической и вычислительной точек зрения. Основная задача заключается в максимизации функции следа, определяемой как fα(X) = след(XTAX + XTD) / [след(XTBX)]α, где X принадлежит многообразию Штифеля On×k = {X ∈ Rn×k : XTX = Ik}. Матрицы A и B являются симметричными n×n матрицами, причем B положительно полуопределена и имеет ранг больше n-k, D - n×k матрица, а параметр α находится в диапазоне от 0 до 1. Условие rank(B) > n-k гарантирует положительность знаменателя для всех допустимых X.
Фреймворк оптимизации на многообразии Штифеля обеспечивает строгий математический фундамент для решения этого класса задач, имеющих важное значение в различных областях науки о данных и машинного обучения. Исследование устанавливает необходимые условия в форме нелинейных проблем собственных значений с зависимостью от собственных векторов и разрабатывает сходящиеся численные алгоритмы на основе итерации самосогласованного поля.
1.1 Предыдущие исследования
В работе идентифицированы и проанализированы три значимых частных случая, которые широко изучались в предыдущей литературе:
Линейный дискриминантный анализ Фишера
При D = 0 и α = 1 задача сводится к maxX∈On×k след(XTAX) / след(XTBX), что возникает в линейном дискриминантном анализе Фишера для обучения с учителем. Предыдущие подходы преобразовывали это в задачу нахождения нуля: решить φ(λ) = 0, где φ(λ) := maxX∈On×k след(XT(A - λB)X). Функция φ(λ) доказуемо невозрастающая и обычно имеет единственный ноль, который может быть найден методом Ньютона. Условия Каруша-Куна-Таккера приводят к нелинейной проблеме собственных значений: H(X)X = XΛ, где H(X) - симметричная матричная функция от X, а Λ = XTH(X)X.
Ортогональный канонический корреляционный анализ
При A = 0 и α = 1/2 задача становится maxX∈On×k след(XTD) / √след(XTBX), что возникает в ортогональном каноническом корреляционном анализе. Эта формулировка служит ядром альтернативной итерационной схемы. Условия ККТ для этого случая не сразу принимают форму НСЗ, но могут быть эквивалентно преобразованы в нее, позволяя решать через итерацию ССП с соответствующей постобработкой.
Несбалансированная проблема Про crustа
Третий частный случай связан с несбалансированной проблемой Про crustа, хотя менее подробно описан в предоставленном отрывке. Все три случая демонстрируют широкую применимость фреймворка оптимизации следа в различных парадигмах статистического обучения.
2. Постановка задачи
Общая задача оптимизации следа формально определяется как:
Задача (1.1a): maxXTX=Ik fα(X)
где: fα(X) = [след(XTAX + XTD)] / [след(XTBX)]α
Параметры удовлетворяют: 1 ≤ k < n, Ik - единичная матрица k×k, A, B ∈ Rn×n симметричны с B положительно полуопределенной и rank(B) > n-k, D ∈ Rn×k, матричная переменная X ∈ Rn×k, и параметр 0 ≤ α ≤ 1.
В работе также отмечается, что кажущийся более общим случай с дополнительной константой c в числителе может быть переформулирован как частный случай Задачи (1.1) через алгебраические преобразования, демонстрируя комплексность предложенного фреймворка.
3. Теоретические основы
Исследование устанавливает несколько фундаментальных теоретических результатов:
Необходимые условия
Необходимые условия оптимальности для задачи оптимизации следа выводятся как нелинейные проблемы собственных значений с зависимостью от собственных векторов. Для частного случая LDA Фишера (α=1, D=0) НСЗ принимает форму H(X)X = XΛ, где H(X) = A - λ(X)B и λ(X) = след(XTAX)/след(XTBX).
Существование и единственность
Для Задачи (1.3) (случай LDA Фишера) доказывается, что локальных максимизаторов не существует - существуют только глобальные. Это важное свойство гарантирует, что любой сходящийся алгоритм достигнет глобально оптимального решения.
Геометрическая интерпретация
Оптимизация происходит на многообразии Штифеля, которое имеет богатую геометрическую структуру. Сходимость алгоритмов анализируется в терминах многообразия Грассмана Gk(Rn) (совокупности всех k-мерных подпространств Rn), предоставляя геометрическую перспективу процесса оптимизации.
4. Численные методы
В работе предлагается и анализируется итерация самосогласованного поля для решения задачи оптимизации следа:
Алгоритм ССП
Базовая итерация ССП для Задачи (1.3): H(Xi-1)Xi = XiΛi-1, начиная с начального приближения X0 ∈ On×k. На каждом шаге решается проблема собственных значений для симметричной матрицы H(Xi-1), и Xi формируется из k собственных векцов, соответствующих k наибольшим собственным значениям.