امروزه یکی از مناسب ترین زمینه های مطالعه و تمرین در صنعت فناوری اطلاعات ، علم داده است که تقریباً یک دهه مورد توجه واقع شده است. در این علم داده ها ارزش بالایی دارند.
ابتدا داده های مورد نظر دریافت می شوند. داده های بدست آمده پس از آن پردازش شدند توسط مهندسین بررسی می شنود تا یک الگوی مناسب پیدا کنند و سپس رفتار کاربر را بر اساس اطلاعات تحلیل شده پیش بینی کنند. این بخشی است که ابزارهای تجسم داده ها به مرحله اجرا در می آیند.
مصورسازی داده ها چیست؟
مصورسازی داده ها اساساً داده های تجزیه و تحلیل شده را در قالب تصاویری یعنی نمودارها و تصاویر قرار می دهد. این مصورسازی ها باعث می شود تا انسان درک روند تجزیه و تحلیل از طریق تصاویر را آسان کند.
تجسم داده ها هنگام تجزیه و تحلیل داده های بزرگ بسیار مهم است. وقتی دانشمندان داده مجموعه داده های پیچیده را تجزیه و تحلیل می کنند ، باید تحلیل های جمع آوری شده را نیز درک کنند. تجسم داده ها درک آنها را از طریق نمودارها آسان می کند.
اگر کمی با پایتون و مباحث علم داده کار کرده باشید حتما با کتابخانه matplotlib اشنا هستید. در اینجا می خواییم ابزار های پرکاربرد و موارد استفاده از ابزار های این مجموعه را با یکدیگر بررسی کنیم.
۱.Bar Plots
این نمودار یکی از محبوب ترین نمودار هایی است که ما اغلب با آنها روبرو می شویم. از آن برای مقایسه داده های عددی در برخی دسته ها / گروه ها استفاده می شود.
مثال: اگر نیاز به مقایسه تعداد دانش آموزان در رشته های مختلف داشته باشیم ، ممکن است به یک bar plot احتیاج داشته باشیم. در تصویر زیر می توان محور X را به عنوان موجودیت ها یا دانش آموزان و محور Y را به عنوان تعداد هر موجودیت در نظر گرفت
۲. Bar Plots گروهی
اگر بخواهیم چند گروه را با یکدیگر مقایسه کنیم از این نمودار استفاده می کنیم.
۳. Stacked Bar Plots
اگر بخواهیم اطلاعات مروبط به موجودیت های مختلف را در حوزه های متافوت با یکدیگر بررسی کنیم از این نمودار استفاده می کنیم
برای مثال اگر بخواهیم جمعیت چند استان را با یکدیگر جمع کرده و در سال های مختلف با یکدیگر مقایسه کنیم به طوری که اطلاعات جزی هر استان را هم نمایش دهیم از این نمودار استفاده می کنی
۴. Histogram
اگر بخواهیم اطلاعات موجود برای یک موجودیت را بررسی کنیم این نمودار گزینه مناسبی است. مثلا بررسی وضعیت سن افراد یک کشور. این نمودار به خوبی می تواند فراوانی یک موجودیت را بررسی کند.
۵. نمودار Pie
مقایسه داده های عددی در برابر یک دسته درست مانند یک bar plot ، اما با یک تفاوت است. این نموار به ما کمک می کند تا داده ها را به عنوان کسری از کل (درصد و نه تعداد خام) مقایسه کنیم.
۶. Scatter Plots
روند تغییر یک موجویت را نشان می دهد. مانند میزان فروش یک محصول در یک ماه
۷. نمودار های زمانی
در این نمودارها محور X روند زمانی را نشان می دهد و نمودار Y متناسب با داده های موجود تغییر می کند. نمودار های زمانی برای مصور سازی روند های زمانی بسیار مفید هستند. برای مثال نواسان قیمت ها سهام با این نمودار ترسیم می شوند.
8. نقشه حرارتی
یکی دیگر از نمودارهایی که در علوم داده مورد استفاده قرار می گیرند نقشه های حرارتی هستند. این نمودار ها به خوبی می توانند غلطت یا فراوانی را در یک مجموعه نشان دهند. در واقع در این نمودار بخش های با غلطت کم با یک رنگ نمایش داده می شوند. هرچقدر غلطت بیشتر شوند رنگ آن بخش نیز بیشتر می شود.
۹. Word Cloud ها
اگر داده های متنی باشند و بخواهیم فراوانی کلمات استفاده شده در متن را نمایش دهیم علاوه بر روش های گفته شده می توان از word cloud نیز استفاده کرد. این نمودار علاوه بر آنکه فراوانی هر کلمه را نشان می دهد زیبای خاصی هم دارد که باعث می شود کاربر با دقت بیشتری آن را بررسی کند.
نمودار های بسیار زیادی برای ترسیم داده ها در علم داده وجود دارد. ولی برای کسی که می خواهد تازه وارد این حوزه شود این نمودارها کفایت می کند.