مصور سازی داده نقش بسیار مهمی در فرایند علم داده و یادگیری ماشین دارد. با مصور سازی داده می توان تحلیل های بدست آمده از مراحل مختلف علم داده را برای همه افراد قابل فهم کرد. در این مقاله قصد داریم با بیان مقدمات و آشنایی با نمودارهای پرکاربرد و اصول مصورسازی داده آن را برای مبتدیان علم داده توضییح دهیم.
مصورسازی داده ها چیست؟
مصور سازی داده ها اساساً داده های تجزیه و تحلیل شده را در قالب تصاویری یعنی نمودارها و تصاویر قرار می دهد. این مصور سازی ها باعث می شود تا انسان درک روند تجزیه و تحلیل از طریق تصاویر را آسان کند.
تجسم داده ها هنگام تجزیه و تحلیل داده های بزرگ بسیار مهم است. وقتی دانشمندان داده مجموعه داده های پیچیده را تجزیه و تحلیل می کنند ، باید تحلیل های جمع آوری شده را نیز درک کنند. تجسم داده ها درک آنها را از طریق نمودارها آسان می کند.
اگر کمی با پایتون و مباحث علم داده کار کرده باشید حتما با کتابخانه matplotlib آشنا هستید. در اینجا می خواهیم ابزارها و نمودارهای پر کاربرد و موارد استفاده از ابزار های این مجموعه را در زمینه مصورسازی داده ها با یکدیگر بررسی کنیم.
۱.نمودار میله ای یا Bar Plots
این نمودار یکی از محبوب ترین نمودار هایی است که در مصورسازی داده ها ما اغلب با آنها روبرو می شویم. از آن برای مقایسه داده های عددی در برخی دسته ها / گروه ها استفاده می شود.
مثال: اگر نیاز به مقایسه تعداد دانش آموزان در رشته های مختلف داشته باشیم ، ممکن است به یک bar plot احتیاج داشته باشیم. در تصویر زیر می توان محور X را به عنوان موجودیت ها یا دانش آموزان و محور Y را به عنوان تعداد هر موجودیت در نظر گرفت.
۲. Bar Plots گروهی
اگر بخواهیم چند گروه را با یکدیگر مقایسه کنیم از این نمودار استفاده می کنیم.
۳. نمودار میله ای تجمعی یا Stacked Bar Plots
اگر بخواهیم اطلاعات مربوط به موجودیت های مختلف را در حوزه های متفاوت با یکدیگر بررسی کنیم از این نمودار استفاده می کنیم.
برای مثال اگر بخواهیم جمعیت چند استان را با یکدیگر جمع کرده و در سال های مختلف با یکدیگر مقایسه کنیم به طوری که اطلاعات جزیی هر استان را هم نمایش دهیم از این نمودار استفاده می کنیم.
۴. نمودار هیستوگرام(Histogram)
اگر بخواهیم اطلاعات موجود برای یک موجودیت را بررسی کنیم نمودارهای هیستوگرام گزینه مناسبی برای مصورسازی داده ها است. مثلا بررسی وضعیت سن افراد یک کشور. این نمودار به خوبی می تواند فراوانی یک موجودیت را بررسی کند.
۵. نمودار دایره ای یا Pie
مقایسه داده های عددی در برابر یک دسته درست مانند یک bar plot ، اما با یک تفاوت است. این نمودار به ما کمک می کند تا داده ها را به عنوان کسری از کل (درصد و نه تعداد خام) مقایسه کنیم.
۶.نمودار پراکندگی یا Scatter
نمودارهای اسکاتر در مصورسازی داده ها روند تغییر یک موجویت را نشان می دهد. مانند میزان فروش یک محصول در یک ماه
۷. نمودار های زمانی
در این نمودارها محور X روند زمانی را نشان می دهد و نمودار Y متناسب با داده های موجود تغییر می کند. نمودار های زمانی برای مصور سازی روند های زمانی بسیار مفید هستند. برای مثال نوسان قیمت ها سهام با این نمودار ترسیم می شوند.
8. نقشه حرارتی heat map
یکی دیگر از نمودارهایی که در علوم داده مورد استفاده قرار می گیرند نقشه های حرارتی هستند. این نمودار ها به خوبی می توانند غلظت یا فراوانی را در یک مجموعه نشان دهند. در واقع در این نمودار بخش های با غلظت کم با یک رنگ نمایش داده می شوند. هر چقدر غلظت بیشتر شوند رنگ آن بخش نیز بیشتر می شود.
۹.ابرکلمات یا Word Cloud
اگر داده های متنی باشند و بخواهیم فراوانی کلمات استفاده شده در متن را نمایش دهیم علاوه بر روش های گفته شده می توان از word cloud نیز استفاده کرد. این نمودار علاوه بر آنکه فراوانی هر کلمه را نشان می دهد زیبای خاصی هم دارد که باعث می شود کاربر با دقت بیشتری آن را بررسی کند.
نمودارهای بسیار زیادی برای مصورسازی و ترسیم داده ها در علم داده وجود دارد. ولی برای کسی که می خواهد تازه وارد این حوزه شود این نمودارها کفایت می کند.
می توانید در مفاهیم پیشرفته تر در مقاله مصورسازی داده ها توسط matplotlib با مفاهیم پیشرفته تر آشنا شوید و در صورتی که می خواهید با لیست انواع نمودارها در مصورسازی داده ها آشنا شوید این لینک برای شما مرجع خوبی خواهد بود.