تجزیه و تحلیل مولفه های اساسی یا PCA ، برای کاهش ابعاد مجموعه های بزرگ داده که داده ها دارای همبستگی هستند به کار میرود.در کاهش ابعاد با pca یک مجموعه بزرگ از متغیرها به یک مجموعه کوچکتر که هنوز هم حاوی اطلاعات مهم مجموعه اولیه است تبدیل می شود.
با پیشرفت در زمینه یادگیری ماشین و هوش مصنوعی ، درک اصول اساسی چنین فناوری هایی ضروری شده است. این مقاله در مورد تحلیل مؤلفه های اصلی به شما کمک می کند تا مفاهیم کاهش ابعاد و نحوه استفاده از آن با زیان پایتون را درک کنید.

فهرست محتوا

چرا به تجزیه و تحلیل مؤلفه اساسی(PCA) نیاز داریم؟

در حوزه یادگیری ماشین و علم داده همیشه سعی می شود داده های جمع آوری شده ابعاد مناسبی داشته باشد چرا که هرچه داه های موجود حجم بیشتری داشته باشد مدل طراحی شده از دقت بالاتری برخوردار است. با این وجود داشتن یک مجموعه داده با حجم زیاد مشکلات خاص خودش را دارد.

.در بسیاری از مواقع بعضی از ویژگی ها توانایی تفکیک اطلاعات را ندارند برای مثال دانشجویان یک کلاس مدرسه را درنظر بگیرید می خواهیم این دانش آموزان را به گروه های مختلف تقسیم بندی کنیم. برای این کار ما باید اطلاعاتی از دانش آموزان جمع اوری کنیم که ما را در تقسیم بندی درست دانش آموزان یاری کند. معیار هایی مانند معدل و علاقه به یک حوزه. اگر در این مثال از معیار سن استفاده شود هیچ کمکی به تفکیک دانش آموزان نخواهد کرد چون همه دانش آموزان هم سن هستند. در واقع واریانس سن دانش آموزان بسیار پایین است و اطلاعات مناسبی به ما نمی دهد. پس ما باید به دنبال ویژگی هایی باشیم که واریانس بالاتری دارند. در این حالت کاهش ابعاد به ما کمک می کند تا ویژگی های کم اهمیت تر را حذف کنیم.

یکی دیگر از کاربر های کاهش ابعاد این است که هرچه ابعاد داده ها بیشتر باشد زمان محاسبه مدل بیشتر می شود . این موضوع در مسایلی که نیاز به سرعت پردازش بیشتر داریم مهم تر می شود.

یکی از روش های کاهش ابعاد تحلیل مولفه اساسی یا PCA است.

تحلیل مولفه های اساسی PCA چیست؟

تحلیل مؤلفه های اصلی (PCA) یک تکنیک کاهش ابعادی است که شما را قادر می سازد همبستگی ها و الگوهای موجود در یک مجموعه داده را مشخص کنید تا بتوان بدون از بین رفتن هرگونه اطلاعات مهم به مجموعه ای از داده ها با ابعاد کمتری دست پیدا کرد.

چنین فرایندی در حل مشکلات پیچیده داده محور که شامل استفاده از مجموعه داده های پر ابعاد است بسیار ضروری است. PCA را می توان از طریق یک سری مراحل به دست آورد. PCA شامل دو مرحله اصلی است.

در بخش اول تمامی داده به یک فضای n بعدی نگاشت می شوند. سپس وابستگی اطلاعات به یکدیگر از بین می ورد. در واقع تلاش می شود کوواریانس میان داده ها از بین برود.

در مرحله دوم داده ها بر محور ها منطبق شده و میانگین آن ها برابر صفر قرار می گیرد.

تصویر زیر مثالی ساده از کاهش ابعاد داده ها از دو بعد به یک بعد را نشان می دهد.

با پیشرفت در زمینه یادگیری ماشین و هوش مصنوعی ، درک اصول اساسی چنین فناوری هایی ضروری شده است. این مقاله در مورد تحلیل مؤلفه های اصلی به شما کمک می کند تا مفاهیم کاهش ابعاد و نحوه استفاده از آن با زیان پایتون را درک کنید.

مثال کاهش ابعاد داده های گل زنبق با PCA

ابتدا باید کتابخانه های مورد نیاز را اضافه کنیم.

from sklearn import datasets
from sklearn.decomposition import PCA
from matplotlib import pyplot as plt

برای اطلاعات بیشتر در مورد دیتاست گل های زنبق iris و ويژگی های آن می توانید به این لینک مراجعه کنید.

داده های گل زنبق را به دو قسمت data و target تقسیم می کنیم.

iris = datasets.load_iris()
x = iris.data
y = iris.target

با استفاده از تابع PCA که قبلا به فضای کاری اضافه کردیم کاهش ابعاد را انجام می دهیم. این تابع یک پارامتر دارد که تعداد ابعاد مورد نیاز بعد از کاهش بعد را معیین می کند. پس از آن با پارامتر fit مدل مورد نظر ساخته می شود و کاهش بعد انجام می شود.

Dimr = PCA(n_components = 2)
Dimr.fit(X)
trans = Dimr.transform(X)

حالا اگر از داده ها خروجی بگیریم متوجه می شویم که داده ها از ۴ بعد به ۲ بعد کاهش پیدا کرده اند.

یکی دیگر از کاربرد های کاهش ابعاد امکان مصور سازی داده ها در دوبعد است که با کتابخانه matplotlib قابل پیاده سازی است.

plt.scatter(trans[:,0],trans[:,1],c= y)
plt.show()

همانطور که مشاهده می کنید بعد از کاهش ابعاد با pca میانگین داده ها در هر بعد برابر صفر است.

مثال کاربردی از کاهش ابعاد با تحلیل مولفه اساسی (PCA)

چرا به تجزیه و تحلیل مؤلفه اساسی(PCA) نیاز داریم؟

تحلیل مولفه های اساسی PCA چیست؟

مثال کاهش ابعاد داده های گل زنبق با PCA

دیدگاه‌ خود را بنویسید لغو پاسخ

مجله آموزشی دیپ تیپ،ارایه دهنده خدمات:

با ما در ارتباط باشید