۱. مقدمه
این مقاله پژوهشی جامع، مسئله بهینهسازی نسبت اثر روی منیفولد اشتيفل را از جنبههای نظری و محاسباتی بررسی میکند. مسئله اساسی مورد بررسی، بیشینهسازی تابع نسبت اثر تعریف شده به صورت fα(X) = trace(XTAX + XTD) / [trace(XTBX)]α است، که در آن X متعلق به منیفولد اشتيفل On×k = {X ∈ Rn×k : XTX = Ik} میباشد. ماتریسهای A و B، ماتریسهای n×n متقارن هستند که B نیمه معین مثبت و دارای رتبه بزرگتر از n-k است، D یک ماتریس n×k است و پارامتر α بین ۰ و ۱ قرار دارد. شرط rank(B) > n-k تضمین میکند که مخرج کسر برای تمام مقادیر مجاز X مثبت باقی بماند.
چارچوب بهینهسازی منیفولد اشتيفل، پایه ریاضی مستحکمی برای حل این دسته از مسائل فراهم میکند که پیامدهای مهمی در حوزههای مختلف علم داده و یادگیری ماشین دارد. این پژوهش شرایط لازم را در قالب مسائل مقدار ویژه غیرخطی با وابستگی بردار ویژه ایجاد کرده و الگوریتمهای عددی همگرا مبتنی بر تکرار میدان خودسازگار (SCF) توسعه میدهد.
۱.۱ کارهای پیشین
مقاله سه مورد ویژه مهم را که قبلاً به طور گسترده در ادبیات موضوع مطالعه شدهاند، شناسایی و تحلیل میکند:
تحلیل ممیز خطی فیشر
با D = ۰ و α = ۱، مسئله به maxX∈On×k trace(XTAX) / trace(XTBX) کاهش مییابد که در تحلیل ممیز خطی فیشر برای یادگیری نظارتشده ظاهر میشود. روشهای قبلی این را به یک مسئله یافتن صفر تبدیل کردند: حل φ(λ) = ۰ که در آن φ(λ) := maxX∈On×k trace(XT(A - λB)X). ثابت شده است که تابع φ(λ) نزولی است و معمولاً یک صفر یکتا دارد که میتوان آن را با استفاده از روش نیوتن یافت. شرایط کاروش-کوهن-تاکر (KKT) به یک مسئله مقدار ویژه غیرخطی (NEPv) منجر میشود: H(X)X = XΛ، که در آن H(X) یک تابع ماتریس-مقدار متقارن از X و Λ = XTH(X)X است.
تحلیل همبستگی متعارف متعامد
با A = ۰ و α = ۱/۲، مسئله به maxX∈On×k trace(XTD) / √trace(XTBX) تبدیل میشود که در تحلیل همبستگی متعارف متعامد (OCCA) پدیدار میشود. این صورتبندی به عنوان هسته یک طرح تکراری متناوب عمل میکند. شرایط KKT برای این مورد بلافاصله به فرم NEPv درنمیآیند اما میتوانند به طور معادل به آن تبدیل شوند و از طریق تکرار SCF با پردازش پسین مناسب حل شوند.
مسئله پروکروستس نامتعادل
مورد سوم به مسئله پروکروستس نامتعادل مرتبط میشود، اگرچه در متن ارائه شده به طور صریح جزئیات کمتری دارد. هر سه مورد، کاربرد گسترده چارچوب بهینهسازی نسبت اثر در پارادایمهای مختلف یادگیری آماری را نشان میدهند.
۲. صورتبندی مسئله
مسئله کلی بهینهسازی نسبت اثر به طور رسمی به صورت زیر تعریف میشود:
مسئله (۱.۱a): maxXTX=Ik fα(X)
که در آن: fα(X) = [trace(XTAX + XTD)] / [trace(XTBX)]α
پارامترها شرایط زیر را ارضا میکنند: ۱ ≤ k < n، Ik ماتریس همانی k×k است، A, B ∈ Rn×n متقارن هستند با B نیمه معین مثبت و rank(B) > n-k، D ∈ Rn×k، متغیر ماتریسی X ∈ Rn×k، و پارامتر ۰ ≤ α ≤ ۱.
مقاله همچنین خاطرنشان میکند که یک مورد به ظاهر کلیتر با یک ثابت c اضافی در صورت کسر را میتوان از طریق دستکاری جبری به عنوان یک مورد ویژه از مسئله (۱.۱) بازصورتبندی کرد که جامعیت چارچوب پیشنهادی را نشان میدهد.
۳. مبانی نظری
این پژوهش چندین نتیجه نظری اساسی را ایجاد میکند:
شرایط لازم
شرایط بهینگی لازم برای مسئله بهینهسازی نسبت اثر به عنوان مسائل مقدار ویژه غیرخطی با وابستگی بردار ویژه (NEPv) استخراج شدهاند. برای مورد ویژه LDA فیشر (α=1, D=0)، NEPv به شکل H(X)X = XΛ درمیآید، که در آن H(X) = A - λ(X)B و λ(X) = trace(XTAX)/trace(XTBX).
وجود و یکتایی
برای مسئله (۱.۳) (مورد LDA فیشر)، ثابت شده است که هیچ بیشینهکننده محلی وجود ندارد - فقط بیشینهکنندههای سراسری وجود دارند. این ویژگی مهم تضمین میکند که هر الگوریتم همگرا به یک جواب بهینه سراسری خواهد رسید.
تفسیر هندسی
بهینهسازی روی منیفولد اشتيفل اتفاق میافتد که ساختار هندسی غنی دارد. همگرایی الگوریتمها بر حسب منیفولد گراسمن Gk(Rn) (مجموعه تمام زیرفضاهای k-بعدی Rn) تحلیل شدهاند که یک دیدگاه هندسی بر فرآیند بهینهسازی ارائه میدهد.
۴. روشهای عددی
مقاله تکرار میدان خودسازگار (SCF) را برای حل مسئله بهینهسازی نسبت اثر پیشنهاد و تحلیل میکند:
الگوریتم SCF
تکرار پایه SCF برای مسئله (۱.۳) به این صورت است: H(Xi-1)Xi = XiΛi-1، که با یک مقدار اولیه شروع میشود.