بهینه‌سازی نسبت اثر با کاربرد در یادگیری چندنمایی

تحلیل نظری و محاسباتی بهینه‌سازی نسبت اثر روی منیفولد اشتيفل با کاربرد در LDA فیشر، تحلیل همبستگی متعارف و یادگیری زیرفضای چندنمایی
hashratetoken.net | PDF Size: 0.8 MB

۱. مقدمه

این مقاله پژوهشی جامع، مسئله بهینه‌سازی نسبت اثر روی منیفولد اشتيفل را از جنبه‌های نظری و محاسباتی بررسی می‌کند. مسئله اساسی مورد بررسی، بیشینه‌سازی تابع نسبت اثر تعریف شده به صورت fα(X) = trace(XTAX + XTD) / [trace(XTBX)]α است، که در آن X متعلق به منیفولد اشتيفل On×k = {X ∈ Rn×k : XTX = Ik} می‌باشد. ماتریس‌های A و B، ماتریس‌های n×n متقارن هستند که B نیمه معین مثبت و دارای رتبه بزرگتر از n-k است، D یک ماتریس n×k است و پارامتر α بین ۰ و ۱ قرار دارد. شرط rank(B) > n-k تضمین می‌کند که مخرج کسر برای تمام مقادیر مجاز X مثبت باقی بماند.

چارچوب بهینه‌سازی منیفولد اشتيفل، پایه ریاضی مستحکمی برای حل این دسته از مسائل فراهم می‌کند که پیامدهای مهمی در حوزه‌های مختلف علم داده و یادگیری ماشین دارد. این پژوهش شرایط لازم را در قالب مسائل مقدار ویژه غیرخطی با وابستگی بردار ویژه ایجاد کرده و الگوریتم‌های عددی همگرا مبتنی بر تکرار میدان خودسازگار (SCF) توسعه می‌دهد.

۱.۱ کارهای پیشین

مقاله سه مورد ویژه مهم را که قبلاً به طور گسترده در ادبیات موضوع مطالعه شده‌اند، شناسایی و تحلیل می‌کند:

تحلیل ممیز خطی فیشر

با D = ۰ و α = ۱، مسئله به maxX∈On×k trace(XTAX) / trace(XTBX) کاهش می‌یابد که در تحلیل ممیز خطی فیشر برای یادگیری نظارت‌شده ظاهر می‌شود. روش‌های قبلی این را به یک مسئله یافتن صفر تبدیل کردند: حل φ(λ) = ۰ که در آن φ(λ) := maxX∈On×k trace(XT(A - λB)X). ثابت شده است که تابع φ(λ) نزولی است و معمولاً یک صفر یکتا دارد که می‌توان آن را با استفاده از روش نیوتن یافت. شرایط کاروش-کوهن-تاکر (KKT) به یک مسئله مقدار ویژه غیرخطی (NEPv) منجر می‌شود: H(X)X = XΛ، که در آن H(X) یک تابع ماتریس-مقدار متقارن از X و Λ = XTH(X)X است.

تحلیل همبستگی متعارف متعامد

با A = ۰ و α = ۱/۲، مسئله به maxX∈On×k trace(XTD) / √trace(XTBX) تبدیل می‌شود که در تحلیل همبستگی متعارف متعامد (OCCA) پدیدار می‌شود. این صورت‌بندی به عنوان هسته یک طرح تکراری متناوب عمل می‌کند. شرایط KKT برای این مورد بلافاصله به فرم NEPv درنمی‌آیند اما می‌توانند به طور معادل به آن تبدیل شوند و از طریق تکرار SCF با پردازش پسین مناسب حل شوند.

مسئله پروکروستس نامتعادل

مورد سوم به مسئله پروکروستس نامتعادل مرتبط می‌شود، اگرچه در متن ارائه شده به طور صریح جزئیات کمتری دارد. هر سه مورد، کاربرد گسترده چارچوب بهینه‌سازی نسبت اثر در پارادایم‌های مختلف یادگیری آماری را نشان می‌دهند.

۲. صورت‌بندی مسئله

مسئله کلی بهینه‌سازی نسبت اثر به طور رسمی به صورت زیر تعریف می‌شود:

مسئله (۱.۱a): maxXTX=Ik fα(X)

که در آن: fα(X) = [trace(XTAX + XTD)] / [trace(XTBX)]α

پارامترها شرایط زیر را ارضا می‌کنند: ۱ ≤ k < n، Ik ماتریس همانی k×k است، A, B ∈ Rn×n متقارن هستند با B نیمه معین مثبت و rank(B) > n-k، D ∈ Rn×k، متغیر ماتریسی X ∈ Rn×k، و پارامتر ۰ ≤ α ≤ ۱.

مقاله همچنین خاطرنشان می‌کند که یک مورد به ظاهر کلی‌تر با یک ثابت c اضافی در صورت کسر را می‌توان از طریق دستکاری جبری به عنوان یک مورد ویژه از مسئله (۱.۱) بازصورت‌بندی کرد که جامعیت چارچوب پیشنهادی را نشان می‌دهد.

۳. مبانی نظری

این پژوهش چندین نتیجه نظری اساسی را ایجاد می‌کند:

شرایط لازم

شرایط بهینگی لازم برای مسئله بهینه‌سازی نسبت اثر به عنوان مسائل مقدار ویژه غیرخطی با وابستگی بردار ویژه (NEPv) استخراج شده‌اند. برای مورد ویژه LDA فیشر (α=1, D=0)، NEPv به شکل H(X)X = XΛ درمی‌آید، که در آن H(X) = A - λ(X)B و λ(X) = trace(XTAX)/trace(XTBX).

وجود و یکتایی

برای مسئله (۱.۳) (مورد LDA فیشر)، ثابت شده است که هیچ بیشینه‌کننده محلی وجود ندارد - فقط بیشینه‌کننده‌های سراسری وجود دارند. این ویژگی مهم تضمین می‌کند که هر الگوریتم همگرا به یک جواب بهینه سراسری خواهد رسید.

تفسیر هندسی

بهینه‌سازی روی منیفولد اشتيفل اتفاق می‌افتد که ساختار هندسی غنی دارد. همگرایی الگوریتم‌ها بر حسب منیفولد گراسمن Gk(Rn) (مجموعه تمام زیرفضاهای k-بعدی Rn) تحلیل شده‌اند که یک دیدگاه هندسی بر فرآیند بهینه‌سازی ارائه می‌دهد.

۴. روش‌های عددی

مقاله تکرار میدان خودسازگار (SCF) را برای حل مسئله بهینه‌سازی نسبت اثر پیشنهاد و تحلیل می‌کند:

الگوریتم SCF

تکرار پایه SCF برای مسئله (۱.۳) به این صورت است: H(Xi-1)Xi = XiΛi-1، که با یک مقدار اولیه شروع می‌شود.