معیارهای ارزیابی فراخوانی (Recall) و صحت (Precision) در یادگیری ماشین

با پیشرفت در جنبه های مختلف علم داده ، معیارهای ارزشیابی مختلفی را برای ارزیابی مدل های یادگیری ماشین معرفی شده است. برای تعیین کارکرد مدل ها باید این مدل یادگیری ماشینی ارزیابی شوند. شما نمی توانید یک مدل یادگیری ماشین را بدون ارزیابی آن اجرا کنید. معیارهای ارزشیابی که می توانید برای اعتبار سنجی مدل خود استفاده کنید عبارتند از:

  • صحت(Precision)
  • فراخوانی(Recall)
  • دقت(Accuracy)
  • F1

هر معیار مزایا و معایب خاص خود را دارد. تعیین اینکه کدام یک باید استفاده شود ، یک گام مهم در فرآیند علم داده است.

معیارهای ارزیابی

 در مورد تفاوت بین معیارهای ارزشیابی که در بالا ذکر شد توضیح خواهیم داد. اما ابتدا برای درک این معیارها ، باید بدانید که مثبت کاذب(False Positives) و منفی کاذب(False Negatives) چیست و تفاوت بین این دو چیست. لطفاً برای توضیح تفاوتهای موجود این مقاله را مطالعه بفرمایید.

برای محاسبه معیار های مختلف ارزیابی باید مقادیر زیر و تفاوت آن را بدانیم.

۱. مثبت صحیح (True Positives) 

۲. مثبت کاذب (False Positives)

۳. منفی صحیح (True Negatives)

۴. منفی کاذب (False Negatives)

دقت

دقت ساده ترین معیار ارزیابی است. دقت معیار اندازه گیری تعداد مشاهدات مدل ما از تعداد کل مشاهدات به درستی پیش بینی شده است. در واقع این معیار بررسی می کند که مدل طراحی شده با چه دقتی می تواند وضعیت نمونه های جدید را پیش بینی کند. طریقه محاسبه معیار دقت به صورت زیر است:

Accuracy = (TP + TN) / (TP + TN + FP + FN)
برای مثال دستگاهی را در نظر بگیرید که میوه ها را جداسازی می کند که ایا سیب است یا خیر. از میان صدها سیب و پرتغال می خواهیم ببینیم دستگاه با چه دقتی سیب ها را جدا می کند. برای محسابه دقت باید تعداد درست سیب های جدا شده و تعداد درست پرتقال های جدا شده را به تعداد کل تقسیم کنیم.
 
صحت
 
این معیار زمانی مهم است TP  مهم است. در مثال میوه ها معیار صحت یعنی سیب ها به درستی سیب تشخیص داده نشده اند. به عبارت دیگر تعداد پرتقال هایی که به اشتباه سیب تشخصیص داده شده اند.
Precision = TP / (TP + FP)
فراخوانی

این معیار در نقطه مقابل معیار صحت قرار دارد. در مثال میوه ها به این مفهوم بازمی گردد که تعداد درست سیب های برچسب خورده به تعداد کل سیب ها چقدر است. معیار فراخوانی از طریق رابطه زیر محاسبه می شود.

Recall = TP / (TP + FN)
معیار F1

معیار F1 هر دو معیار فراخوانی و صحت را باهم لحاظ می کند به همین دلیل کارایی بالاتری دارد و از روش زیر بدست می آید.

F1 Score = 2 * ( (Precision * Recall) / (Precision + Recall) )

در مثال بالا F1 یعنی چه تعداد پرتقال به اشتباه سیب دسته بندی شده اند(FP) و چه تعداد سیب جز دسته سیب ها طبقه بندی نشده اند(FN).

از کدام معیار استفاده کنیم؟
هنگام ساخت و ارزیابی یک مدل یادگیری ماشین ، باید بتوانیم مؤثرترین معیار ارزیابی را برای استفاده تعیین کنیم. مناسب ترین معیار کاملاً به مساله بستگی دارد.

بیشتر اوقات با داده های عدم متعادل سروکار خواهیم داشت. با استفاده از مثال سیب و پرتقال ، در دنیای واقعی ، شما به احتمال زیاد نمونه نامتعادل از 1 تا 3 سیب به پرتقال خواهید داشت. در این حالت ، استفاده از Accuracy به عنوان یک معیار ارزیابی مناسب نخواهد بود زیرا دقت می تواند اثربخشی مدل ما را نادرست نشان دهد.
اگر مجموعه داده ها واقعاً متعادل باشند ، احتمالاً صحت  مناسب ترین اندازه برای استفاده است. با این حال ، بیشتر اوقات چنین نخواهد بود.

در بیشتر مواقع که داده ها غیر متوازن هستند از معیار ها دقت ، فراخوانی و F1 استفاده می کنیم.

حال فرض کنید می خواستیم سیب ها مسموم را از سیب های سالم جدا کنیم. در این حالت چیزی که برای ما مهم است این است که سیب مسمومی جز دسته سیب های سالم قرار نگیرد. در واقع در اینجا تعداد منفی های کاذب(FN) برای ما مهم است. در چنین مسایلی بهترین معیار ، فراخوانی یا Recall است. چون مهم نیست چه تعداد سیب سالم ، مسموم تشخیص داده شود. مهم این است که سیب مسمومی در دسته سیب های سال قرار نگیرد.

حال اگر یک مدل پیش بینی کننده طراحی کنیم و بخواهیم ببینیم می تواند بدرستی پیش بینی کند معیار صحت مهیار مناسبی است. مثلا یک سیستم پیش بینی کننده قیمت بورس. برای ارزیابی این مدل از معیار صحت یا Precision استفاده می کنیم.

بعضی از اوقات هر دو معیار صحت و فراخوانی برای ما مهم هستند. در این گونه مسایل معیار F1 می تواند بهترین جواب را بدهد. چون هر دو معیار  Precision و Recall را در خود دارد.

نتیجه

همانطور که در طول این مقاله آموخته اید ، چندین معیار ارزیابی مختلف وجود دارد که برای مدل یادگیری ماشین باید استفاده شود. هر معیار مزایا و معایب خاص خود را دارد. این وظیفه شماست که تعیین کنید از کدام یک برای ارزیابی مدل خود استفاده کنید.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *