بیشترین تلاش در پروژه مربوط به قسمت آماده سازی و تهیه داده ها می شود ، گاهی اوقات ممکن است 90 درصد از کل زمان صرف شده برای پروژه برای جمع آوری داده ها صرف شود. رفع مشکل انواع داده های گم شده (Missing Values)یکی از سخت ترین قسمت ها در مرحله آماده سازی داده ها است. یکی از دلایلی که دشوار به نظر می رسد این است که هیچ راهی برای جلوگیری از مقادیر از دست رفته وجود ندارد.
برای اینکه بفهمید با مقادیر گم شده موجود در مجموعه داده خود چه کاری انجام دهید ، ابتدا باید با انواع داده های گم شده آشنا شوید و بفهمید که دیتای شما چه نوع مقادیر گمشده ای را دارد. در این مطلب قصد داریم با انواع داده های مفقود شده آشنا شویم.
سه نوع داده از دست رفته وجود دارد:
- داده از دست رفته تصادفی(MAR)
- داده گمشده به صورت کاملاً تصادفی(MCAR)
- داده گم شده غیر تصادفی (MNAR)
تصور کنید که ما در حال تلاش برای پیش بینی قیمت اتومبیل فروخته شده هستیم ، به عنوان مثال در eBay ، داده ها ممکن است به این شکل باشد:
این مثال به ما کمک می کند انواع مختلف داده های مفقود شده را درک کنیم.
داده گمشده به صورت تصادفی (MAR)
به این معنی است که بین مقادیر از دست رفته و داده های موجود رابطه ای مشخص وجود دارد. معنی آن این است که فقدان داده ها توسط سایر ویژگی های مجموعه داده قابل پیش بینی است. اگر متوجه نشده اید به جدول بالا دقت کنید. همانطور که می بینید که مسافت پیموده شده مقادیر کمی داده ی از دست رفته دارد. اگر مجموعه داده را تجزیه و تحلیل کنیم می بینیم که سال ساخت خودروهایی که مقادیر از دست رفته دارند کمتر از نمونه های دیگر است.
از تصویر ، می توان حدس زد که هرچه ماشین قدیمی تر باشد ، احتمال عدم ارائه مسافت پیموده شده توسط فروشنده خودرو بیشتر است. دلایل زیادی وجود دارد که مسافت پیموده شده برای ماشین قدیمی وجود نداشته باشد ، اما مهمترین دلیل آن این است که مسافت پیموده شده اتومبیل های قدیمی بیشتر از اتومبیل های جدید است. و هرچه مسافت پیموده شده بیشتر باشد ، از ماشین نیز بیشتر استفاده شده است ، که در قیمت آن بسیار تأثیر می گذارد. بنابراین ،با روش های پیش بینی داده ها می توان مسافت طی شده خودرو را مشخص کرد.
داده های گمشده بهصورت کاملاً تصادفی(MCAR)
MCAR به این معنی است که هیچ رابطه ای بین از دست رفتن داده ها و مقادیر مشاهده شده وجود ندارد. هیچ منطقی در از دست رفتن داده ها وجود ندارد. از تصویر ارائه شده در بالا ، می توان فهمید که مقدار ستون رنگ وجود ندارد ، دلایل زیادی می تواند برای عدم وجودداده در این ستون وجود دارد. مثلا کسی فراموش کرده که رنگ را ذکر کند ،یا کسی تنبل بود که این کار را انجام دهد ،یا دلایل اینچنینی.
داده گم شده غیر تصادفی (MNAR)
مشاهده و فهمیدن این نوع از داده های از دست رفته از سایر انواع داده های گم شده سخت تر است. در این حالت ما نمونه ها را از دست می دهیم به همین دلیل روشی برای فهمیدن اینکه چه تعداد داده از دست رفته است وجود ندارد.
ساده ترین راه برای فهمیدن دلیل از دست رفتن داده ها ، درک فرآیند جمع آوری داده ها است ، همچنین با استفاده از روش های آماری پیشرفته می توان به این نوع از داده های مفقود شده پی برد.
نتیجه گیری
همانطور که گفته شد مبحث داده های مفقود شده قسمت مهم و دشوار تحلیل داده هاست. رویکردهای مختلفی برای حل این موضوع وجود دارد. در این مطلی سعی کردیم با انواع داده های گم شده آشنا شویم. در مطالب دیگر با روش های حل مشکل داده های مفقود شده آشنا می شویم.
منبع: مدیوم