در یادگیری ماشین و آمار کاهش بعد یا کاهش ابعاد روند کاهش تعداد متغیرهای تصادفی تحت نظر (Supervised) از طریق به دست آوردن یک مجموعه از متغیرهای اصلی می‌باشد. کاهش ابعاد را می‌توان به انتخاب ویژگی و استخراج ویژگی تقسیم کرد.

انتخاب ویژگی

انتخاب ویژگی روشی است که برای پیدا کردن یک زیر مجموعه از متغیرهای اصلی (آن هارا ویژگی‌ها یا صفات نیز می‌گویند) تلاش می‌کند.

برای این عمل سه استراتژی وجود دارد: استراتژی فیلتر (به عنوان مثال افزایش اطلاعات)، استراتژی بسته‌بندی (به عنوان مثال جستجوهایی با دقت هدایت شونده) و استراتژی جاسازی شده (ویژگی‌ها برای ساختن مدل بر اساس اشتباهات پیش بینی، انتخاب می‌شوند تا اضافه شوند یا حذف شوند).

در این خصوص مشکلات بهینه‌سازی ترکیباتی را نگاه کنید.

در برخی از موارد، تجزیه و تحلیل داده‌ها مانند رگرسیون یا طبقه‌بندی می‌تواند در فضای کاهش یافته دقیق تر از فضای اصلی انجام بشود.[ نیازمند منبع ]

استخراج ویژگی

استخراج ویژگی داده‌ها را در فضای با ابعاد بزرگ به یک فضای ابعاد کمتر تبدیل می‌کند. تحول داده‌ها می‌تواند خطی باشد، همان‌طور که در تجزیه و تحلیل مولفه اصلی (PCA)، اما بسیاری از تکنیک‌های کاهش اندازه غیر خطی نیز وجود دارد. برای داده‌های چند بعدی، نمایندگی تنسور را می‌توان در کاهش ابعاد از طریق یادگیری زیر فضای چند لاین استفاده کرد.

تجزیه تحلیل مولفه اصلی (PCA)

روش اصلی خطی برای کاهش ابعاد، تجزیه و تحلیل مؤلفه اصلی، نقشه‌برداری خطی داده‌ها را به یک فضای بعدی پایین‌تر انجام می‌دهد به طوری که واریانس داده‌ها در نمایش نمایشی کمینه به حداکثر می‌رسد. در عمل، ماتریس کوواریانس (و بعضی اوقات همبستگی) داده‌ها ساخته می‌شود و ویژه بردار در این ماتریس محاسبه می‌شود. بردارهای اصلی که با بزرگترین مقادیر ویژه (اجزای اصلی) مطابقت دارند، اکنون می‌توانند برای بازسازی بخش بزرگی از واریانس داده‌های اصلی استفاده شوند. علاوه بر این، چندین بردار اولاً می‌توانند به صورت منظم رفتار فیزیکی در مقیاس بزرگ سیستم تفسیر شوند[ نیازمند منبع ] [ چرا؟ ]. فضای اصلی (با ابعاد تعداد نقاط) کاهش یافته‌است (با از دست دادن داده‌ها، اما امیدواریم مهمترین واریانس را حفظ کند) توسط چند بردارهای ویژه به فضا می‌رسد.

هسته PCA

تجزیه و تحلیل مؤلفه اصلی می‌تواند با استفاده از ترفند هسته در یک روش غیر خطی استفاده شود. تکنیک حاصل قادر به ساخت نقشه‌های غیر خطی است که واریانس را در داده‌ها به حداکثر می‌رساند. تکنیک حاصل PCA کرنل است.

هسته مبتنی بر گرافیک PCA

دیگر تکنیک‌های غیر خطی برجسته شامل تکنیک‌های یادگیری منیوفولد، تکنیک‌هایی مانند Isomap، جابجایی خطی محلی (LLE)، هسین LLE، خصوصیات Laplacian و هماهنگی فضایی مماس محلی (LTSA) می‌باشد. این تکنیک‌ها یک نماینده داده‌های کم حجم با استفاده از یک تابع هزینه ای که خواص محلی را حفظ می‌کند، ایجاد می‌کند و می‌تواند به عنوان تعریف یک هسته مبتنی بر گراف برای PCA Kernel مورد استفاده قرار گیرد.

تفکیک کننده خطی (LDA)

تفکیک کننده خطی (LDA) یک تعمیم جدایی خطی فیشر است، یک روش استفاده شده در آمار، تشخیص الگو و یادگیری ماشین برای یافتن ترکیب خطی از ویژگی‌هایی که دو یا چند کلاس اشیاء یا رویدادهای را مشخص یا جدا می‌کند.

تعمیم تحلیل تمایزی (GDA)

خودرمزگذار

خودرمزگذارها می‌توانند به‌منظور یادگیری توابع غیرخطی کاهش ابعاد مورد استفاده واقع شوند.

کاهش ابعاد

برای مجموعه داده‌های با ابعاد بزرگ (یا به عنوان مثال با تعداد ابعاد بیش از ۱۰) کاهش ابعاد معمولاً قبل از اعمال الگوریتم نزدیکترین همسایگان (k-NN) به منظور جلوگیری از نفرین بعدی انجام می‌شود.

کاهش ابعاد

  1. فضا، زمان و ذخیره‌سازی مورد نیاز را کاهش می‌دهد.
  2. از بین بردن چند ستون، عملکرد مدل یادگیری ماشین را بهبود می‌بخشد.
  3. هنگامی که به ابعاد بسیار کم مانند 2D یا 3D تبدیل می‌شود، داده‌ها به راحتی قابل مشاهده است.

برنامه‌های کاربردی

تکنیک کاهش ابعادی که گاهی در علوم اعصاب استفاده می‌شود، ابعاد حداکثر آموزنده است که یک نمایندهٔ پایین‌تر از یک مجموعه داده را نشان می‌دهد تا اطلاعاتی که ممکن است در مورد داده‌های اصلی حفظ شود.[ نیازمند منبع ]


این مقاله با استفاده از مواد از مقاله ویکی پدیا کاهش ابعاد است که تحت Creative Commons Attribution-Share-Alike License 3.0 منتشر می شود.