وقتی داده ها را بدست می آوریم ، بعد از تمیز کردن داده ها و پیش پردازش ، اولین قدمی که انجام می دهیم ، مدل سازی داده ها و استفاده از مدل طراحی شده است. اما صبر کنید! چگونه می توانیم اثربخشی مدل خود را اندازه بگیریم. اثربخشی بهتر ، عملکرد بهتر و دقیقاً همان چیزی است که ما می خواهیم. و اینجاست که ماتریس درهم ریختگی(Confusion Matrix) مورد توجه قرار می گیرد.این ماتریس می تواند عملکرد سیستم یادگیری ماشین را بررسی کند.
این مقاله قصد دارد به سؤالات زیر پاسخ دهد:
- ماتریس درهمریختگی چیست و چرا به آن احتیاج داریم؟
- چگونه می توان ماتریس درهم ریختگی را برای یک مساله طبقه بندی محاسبه کرد؟
این ماتریس یک روش اندازه گیری عملکرد برای مساله طبقه بندی یادگیری ماشین است که در آن خروجی می تواند دو یا چند کلاس باشد. این جدول با 4 ترکیب مختلف از مقادیر پیش بینی شده و واقعی ساخته می شود.
ماتریس درهمریختگی برای محاسبه معیار های ارزیابی دقت(Accuracy) ، صحت(Precision)، فراخوانی(Recall) و F1 لازم وضروری است.
با یک مثال از موضوع بارداری این مفاهیم را توضییح می دهیم.
۱. مثبت صحیح (True Positives) : پیش بینی کردیم که مثبت بوده و درست پیش بنی کردیم
- پیش بینی کردیم خانم باردار است و درست بوده است
۲. منفی صحیح (True Negatives): پیش بینی کردیم منفی باشد و درست پیش بینی کردیم.
- پیش بینی کردیم آقا باردار نباشد و درست بوده است.
۳. مثبت کاذب (False Positives): پیش بینی کردیم مثبت باشد ولی غلط پیش بینی کردیم
- پیش بینی کردیم آقا باردار باشد! ولی غلط بود.
۴. منفی کاذب (False Negatives): پیش بینی کردیم غلط باشد ولی درست بود.
- پیش بینی کردیم خانم باردار نباشد ولی واقعا باردار بود.
با استفاده از این ۴ مفهوم، معیار های مختلفی برای ارزیابی مدل یادگیری ماشین تعریف می شود.
در ادامه معروف ترین این معیار ها را بررسی می کنیم.
فراخوانی(Recall)
به این مفهوم اشاره دارد که از بین همه کلاسهای مثبت ، چقدر درست پیش بینی کردیم. باید تا حد ممکن بالا باشد.
صحت(Precision):
یعنی از بین تمام کلاسهای مثبتی که به طور صحیح پیش بینی کرده ایم ، چند نفر در واقع مثبت هستند.
معیار F1
اگر بخواهیم همزمان هر دو معیار صحت و فراخوانی در ارزیابی مدل دخیل باشند از این معیار استفاده می کنیم.
امیدوارم اطلاعات مقدماتی در خصوص معیار های ارزیابی و ماتریس درهم ریختگی بدست آورده باشید.