احتمال اینکه در حجم داده های بزرگ ، داده ها دارای ناهنجاری و مشکل باشند بسیار زیاد است. با توجه به این واقعیت که داده های با کیفیت بالا به مدل ها و پیش بینی های بهتری منجر می شوند ، پیش پردازش داده ها حیاتی شده است و این گام اساسی در روند علوم داده / یادگیری ماشین / هوش مصنوعی است. در این مقاله ، قصد داریم بررسی کنیم پیش پردازش داده چیست و شامل چه مراحلی است.
هنگام جمع آوری داده ها ، ممکن است با سه عامل اصلی روبرو شود که می تواند به کیفیت داده کمک کند:
۱- دقت: مقادیر داده نادرست زیاد باشد. دلایل وجود داده های نادرست می تواند متفاوت باشد ، که شامل موارد زیر است:
- کاربران عمدا مقادیر نادرستی را ارسال می کنند
- فرمت نامناسب برای داده ها ارسال می کنند
- تکثیر و تکرار از یک نمونه داده توسط کاربران
۲- کامل بودن: مجموعه داده می تواند به دلایل متفاوت ناقص باشد. از جمله این دلایل:
- در دسترس نبودن داده ها
- حذف داده های ناسازگار
- حذف داده هایی که ممکن است در ابتدا نامرتبط بنظر آیند
برای اطمینان از آنکه داده ها کیفیت بالایی داشته باشند ، پیش پردازش آنها بسیار مهم است. برای سهولت انجام فرآیند ، پیش پردازش داده ها به چهار مرحله تقسیم می شوند: تمیز کردن داده ها ، یکپارچه سازی داده ها ، کاهش داده ها و تبدیل آن ها
تمیز کردن داده ها
تمیز کردن داده ها به تکنیک های “پاک کردن” داده ها با روش حذف داده های پرت(outliers) ، پرکردن داده های مفقود شده(replacing missing values) ،از بین بردن داده های نویز(noisy data) و تصحیح داده های ناسازگار(inconsistent data) اشاره دارد. تکنیک های زیادی برای انجام هر یک از این وظایف استفاده می شود. در ادامه ، سعی کردیم این روش ها را به زبان ساده توضییح دهیم.
مقادیر از دست رفته
به منظور مقابله با داده های از دست رفته ، می توان از چندین رویکرد استفاده کرد.
حذف داده ها: اگر نمونه داده های از دست رفته زیاد نباشد و تحت شرایطی می توان آن ها را حذف کرد. برای اطلاعات بیشتر این مقاله را مطالعه کنید.
پر کردن مقدار از دست رفته به صورت دستی: این روش وقت گیر است و برای مجموعه داده های عظیم توصیه نمی شود.
استفاده از یک مقدار استاندارد برای جایگزینی مقدار از دست رفته: مقدار از دست رفته را می توان با یک ثابت جهانی مانند “N / A” یا “Unknown” جایگزین کرد. این یک روش ساده است ، اما دقت کار را پایین می آورد.
استفاده از روش های آماری (میانگین ، میانه ، فراوانی) برای جایگزینی مقدار از دست رفته: براساس توزیع داده ها ، می توان از میانگین (در صورت توزیع نرمال) یا میانه (برای توزیع غیر نرمال) برای پر کردن مقدار از دست رفته استفاده کرد .
از این روش فقط برای پر کردن هر ستون به صورت جدا استفاده می شود.
استفاده از محتمل ترین مقدار برای پر کردن مقدار گمشده: با استفاده از الگوریتم هایی مانند رگرسیون و درخت تصمیم ، مقادیر از دست رفته را می توان پیش بینی و جایگزین کرد. اطلاعات بیشتر را از این مقاله دریافت کنید.
داده های داری نویز
نویز عبارت است از داده های ناخواسته در مجموعه داده . برای داده های عددی می توان از نمودار جعبه ای یا نمودار پراکندگی استفاده کرد. روش های مختلفی برای حذف داده های نویز وجود دارد:
رگرسیون: از رگرسیون خطی و رگرسیون خطی چندگانه می توان برای حذف داده های نویزی استفاده کرد.
تجزیه و تحلیل داده های پرت: روش های متعددی برای حذف داده های پرت(Outlier) وجود دارد. از این روش ها می توان برای حذف داده های نویزی استفاده کرد.
یکپارچه سازی داده ها
از آنجا که داده ها از چندین منبع جمع آوری می شود ، ادغام داده ها یک بخش حیاتی از فرآیند تبدیل داده ها شده است. این کار ممکن است منجر به تولید داده های زائد و ناسازگار شود ، که می تواند در دقت و سرعت تاثیر گذار شود. برای مقابله با این مسائل و حفظ یکپارچگی داده ها ، رویکردهایی مانند تشخیص داده های تکراری و تشخیص تعارض داده ها مورد استفاده قرار می گیرد .
کاهش ابعاد داده ها
هدف از کاهش ابعاد داده ها این است که داده ها ویژگی یا ستون های کمتری داشته باشند بدون آن که ساختار و یکپارچکی داده ها از بین برود. این کار باعث کاهش حجم ذخیره سازی داده ها می شود و سرعت طراحی مدل بیشتر می شود. روش های مختلفی برای کاهش ابعاد وجود دارد. در این مطلب با استفاده از یک مثال عملی کاهش ابعاد را توضییح داده ایم.
تبدیل داده ها
مرحله آخر پیش پردازش داده ها تبدیل داده ها به فرم مناسب برای مدل سازی داده ها است. استراتژی هایی که امکان تبدیل داده ها را فراهم می کنند عبارتند از:
۱- ساخت ویژگی(ستون) جدید: در صورت لزوم از ویژگی های موجود ویژگی های جدید ساخته شود.
۲- نرمال سازی: داده ها در هر ویژگی بین دامنه کوچکتر مقیاس بندی می شوند به عنوان مثال داده ها در بازه بین +۱ و ـ۱ قرار گیرند.
۳- گسسته سازی: در این روش مقادیر کیفی(غیر عددی) به مقادیر کمی(عددی) تبدیل می شوند. برای مدل سازی و نباید مجموعه داده ما دارای مقادیر کیفی باشد.
بحث در مورد پیش پردازش داده ها یکی از مبحث های داغ حوزه علم داده است. هر روز روش های جدیدی تری در این زمینه معرفی می شود. شرکت IBM در زمینه حوزه علوم داده و یادگیری ماشین دستاورد های عظیمی دارد. IBM ماشینی طراحی کرده که می تواند بسیاری از عملیات داده کاوی و پیش پردازش داده ها را به صورت هوشمند انجام داده. IBM Watson Studio قابلیت های متعدد و رایگانی برای علاقه مندان به حوزه داده کاوی دارد. برای اطلاعات بیشتر مربوط به خدمات این سیستم اینجا را مطالعه کنید.
منبع: www.IBM.com