تقریباً همه مجموعه داده های دنیای واقعی مقادیر از دست رفته missing value دارند، برای حذف، پر کردن یا جایگزینی داده های گم شده شناسایی نوع آن از دست رفتن داده مهم است و این یک مشکل جدی است که باید پاسخگوی آن باشیم. در این مقاله سعی می کنیم رایج ترین و آزمایش شده ترین روش های برخورد با مشکل داده های گم شده را توضیح دهیم.
برای درک نحوه برخورد با داده های از دست رفته ، باید بفهمید که انواع داده های از دست رفته چیست؟، ممکن است درک تفاوت آنها دشوار باشد ، اما به شما توصیه می کنیم این مطالب را بخوانید ، جایی که سعی کردیم انواع داده از دست رفته را توضیح دهیم.
داده های از دست رفته ممکن است به طرق مختلف وجود داشته باشد ، می تواند یک رشته خالی باشد ، می تواند NA ، N / A ، null ، -1 یا 999 باشد. بهترین راه برای آماده سازی برای مقابله با مقادیر از دست رفته درک داده هایی است که دارید. بررسی کنید که مجموعه داده شما داده های از دست رفته را چگونه نشان می دهد و نحوه جمع آوری داده به چه صورت بوده است. محدوده مقادیر مجاز و درک داده ها مهمترین عواملی هستند که در ابتدای کار باید مشخص شوند.
روش های مختلفی برای مقابله با داده از دست رفته وجود دارد. شاید راحت ترین روش حذف نمونه هایی باشد که داده های از دست رفته باشد. ولی در این روش تعداد نمونه ها کاهش پیدا می کند. همانطور که می دانید در داده کاوی هرچقدر تعداد نمونه ها بیشتر باشد مدل سازی با دقت بالاتری انجام می شود.
برای روشن شدن موضوع بیایید تصور کنیم که می خواهیم قیمت خودرو را با توجه به برخی ویژگی ها پیش بینی کنیم. و البته ، داده ها مقادیر از دست رفته دارند. داده ها ممکن است مانند جدول نشان داده شده در زیر باشد.
حذف داده های گم شده
حذف نمونه ها
اگر مقادیر از دست رفته در برخی از متغیرها از نوع داده کاملا از دست رفته(MCAR) باشد و تعداد مقادیر از دست رفته خیلی زیاد نباشد ، می توانید به جای پر کردن و یا جایگزینی داده های گم شده آنها را حذف کنید.
می توانید در مورد داده های MCAR اینجا بیشتر بخوانید.
در مثال بالا رنگ ماشین سطر اول این شرایط را دارد پس می توانیم آن را حذف کنیم.
حذف کردن ستون
چه میزان از داده های گم شده قابل قبول است؟
شرایطی را در نظر بگیرید که یک ستون مقادیر از دست رفته زیادی دارد. در این حالت ، ستون را می توان به طور کامل حذف کرد. به عنوان یک قاعده کلی ، وقتی ۶۰-۷۰٪ مقادیر یک ستون وجود نداشته باشد آن را حذف می کنیم.
با نگاه کردن به جدول ، می توانیم به حذف ستون مسافت پیموده شده فکر کنیم ، زیرا 50 درصد از داده ها از بین رفته است ، اما از آنجا که کمتر از قانونی است که گفته شد و همچنین مسافت پیموده شده مقدار MAR است و یکی از مهمترین پیش بینی کننده های قیمت خودرو است انتخاب مناسبی نیست.
پر کردن داده های گم شده
مقدار دهی متغیر های پیوسته
با استفاده از الگوریتم های مختلف می توان مقادیر خالی را مقدار دهی کرد. برای مثال با استفاده از الگوریتم جنگل تصادفی داده های از دست رفته مقدار دهی می شوند. در این مقاله به تفصیل راجع به این الگوریتم صحبت کرده ایم.
مقدار دهی متغیرهای کیفی
از روش جنگل تصادفی هم می توان در این متغییر ها استفاده کرد. راه دیگر این است که تمام مقادیر تهی در این ویژگی ها را تغییر نام دهیم. مثلا در اینجا ماشین هایی که رنگ آن ها تهی است را به “سایر” تغییر دهیم. با این کار عملا یک رنگ جدید به رنگ های ما اضافه می شود.
میانه/میانگین/فراوانی
با استفاده از این روش می توان هم داده های عددی هم داده های کیفی را مقدار دهی کرد. در این روش از معیار های آماری برای مقدار دهی مقادیر مفقود شده استفاده می شود. برای مثال از میانه یا میانگین برای پر کردن داده های گم شده ستون مسافت طی شده و از فراوانی (Mod) برای رنگ ماشین استفاده می شود.
پیش بینی مقادیر مفقود شده
این روش در صورت طراحی صحیح می تواند بسیار موثر باشد. ایده این روش این است که ما مقدار ورودی از دست رفته را با کمک سایر ویژگی های مجموعه داده پیش بینی می کنیم. رایج ترین الگوریتم های پیش بینی برای محاسبه رگرسیون خطی و نزدیکترین همسایگان (KNN) هستند.
با توجه به جدول بالا ، ما می توانیم برای جایگزینی داده های گم شده در ستون مسافت پیموده شده را با استفاده از متغیرهای رنگ ، سال و مدل پیش بینی کنیم. استفاده از متغیر هدف ، به عنوان مثال ستون قیمت به عنوان پیش بینی ، انتخاب خوبی نیست ، زیرا ما اطلاعات مدل های آینده را فاش می کنیم. اگر ورودی های از دست رفته مسافت پیموده شده را با استفاده از ستون قیمت حساب کنیم ، اطلاعات ستون قیمت در ستون مسافت پیموده می شود.
نتیجه گیری
روشهای زیادی برای حل مساله داده های مفقود و جایگزینی داده های گم شده وجود دارد ، اما بهترین روش وجود ندارد. برای بدست آوردن بهترین خروجی باید روش های مختلف را آزمایش کرد. تمامی روش های مقابله با داده های از دست رفته دارای ایراد هایی هستند. در واقع بهترین روش این است که در هنگام جمع آوری داده ها تلاش کنیم داده از دست رفته نداشته باشیم.
تقریباً همه مجموعه داده های دنیای واقعی مقادیر از دست رفته missing data دارند و این یک مشکل جدی است که باید پاسخگوی آن باشیم. در این مقاله سعی می کنیم رایج ترین و آزمایش شده ترین روش های برخورد با مشکل داده های گم شده را توضیح دهیم.
برای درک نحوه برخورد با داده های از دست رفته ، باید بفهمید که انواع داده های از دست رفته چیست؟، ممکن است درک تفاوت آنها دشوار باشد ، اما به شما توصیه می کنیم این مطالب را بخوانید ، جایی که سعی کردیم انواع داده از دست رفته را توضیح دهیم.
منبع: مدیوم