راهنمای کامل مبتدی ها برای تمیز کردن و پیش پردازش داده‌ها

آموزش, پیش پردازش داده ها, مفاهیم پایه علم داده

پاکسازی و پیش پرداز داده ها یکی از مهمترین بخش ها قبل از ساخت مدل می باشد و در این مقاله سعی شده تا اقدامات معمولی که بر روی داده های خام انجام میشود را توضیح دهیم .

ژوئن 5 2023

طراحی یک سیستم توصیه گر فیلم بر روی مجموعه داده MovieLens

آموزش, آموزش تصویری و گام به گام, پروژه, پیش پردازش داده ها, داده کاوی و تجزیه و تحلیل آماری, کاربرد در صنعت, مفاهیم پیشرفته, یادگیری ماشین

استفاده از سیستم های توصیه گر هر روز در حال افزایش است .دراین مقاله قصد داریم یک سیستم توصیه گر ساده بر روی مجموعه داده سایت MovieLens طراحی کنیم.

نوامبر 10 2022

۵ نکته ای که باید در مورد کلان داده یا Big Data بدانید

آموزش, پیش پردازش داده ها, داده کاوی و تجزیه و تحلیل آماری, کلان داده, مفاهیم پایه علم داده

کلان داده یا بیگ دیتا زمینه است که هر روز در حال افزایش است. به همین جهت دانستن مفاهیم و الزامات این حوزه ضروری بنظر می رسد. در این مقاله قصد داریم ۵ نکته مهم در زمینه بیگ دیتا را با هم بررسی کنیم.

ژوئن 1 2022

کاهش ابعاد با استفاده از انتخاب ویژگی

ابزار های علم داده, پیش پردازش داده ها, داده کاوی و تجزیه و تحلیل آماری, دسته‌بندی نشده, یادگیری ماشین

انتخاب ویژگی ها و کاهش ابعاد به ما این امکان را می دهد تعداد ویژگی های یک مجموعه داده را فقط با حفظ ویژگی های مهم به حداقل برسانیم. مزایای مختلفی در انجام انتخاب ویژگی و کاهش ابعاد وجود دارد که شامل تفسیرپذیری مدل، به حداقل رساندن بیش از حد مناسب و همچنین کاهش اندازه مجموعه train و در نتیجه زمان train است.

فوریه 13 2022

تجزیه و تحلیل مشتریان مبتنی بر مدل RFM

آموزش, پروژه, پیش پردازش داده ها, داده کاوی و تجزیه و تحلیل آماری, کاربرد در صنعت, مفاهیم پیشرفته, یادگیری ماشین

مدل RFM یک روش محبوب و کارا برای تجزیه و تحلیل مشتریان است. در این روش از ۳ معیار اخرین خرید مشتری، تعداد دفعات خرید و مبلغ خرید استفاده می شود. با استفاده از این معیار ها مدل RFM طراحی می شود. با روش های مصور سازی داده اطلاعات بدست آمده از مدل نمایش داده می شود.

آوریل 22 2021

پیش بینی مقادیر مفقود شده با رگرسیون خطی و جنگل تصادفی در پایتون

آموزش, پیش پردازش داده ها, داده کاوی و تجزیه و تحلیل آماری, مفاهیم پیشرفته

در این پست ما در مورد چگونگی ساختن مدلهای یادگیری ماشین برای پیش بینی مقادیر مفقود شده در داده ها پرداختیم. در ابتدا ما یک مدل رگرسیون خطی آموزش داده شده بر روی ویژگی “امتیاز” برای پیش بینی قیمت نوشیدنی ساختیم. سپس ما یک مدل جنگلی تصادفی راکه بر روی ویژگی “امتیاز” و متغیرهای کیفی آموزش دادیم تا قیمت نوشیدنی را پیش بینی کنیم. ما دیدیم که مدل جنگلهای تصادفی به طور قابل توجهی از مدل مبتنی بر رگرسیون خطی بهتر است.

فوریه 21 2021

انواع داده های گم شده (missing value)

پیش پردازش داده ها, مفاهیم پایه علم داده

در مساله انواع داده های گم شده missing value فهمیدن نوع مفقود شدن به طور تصادفی،غیرتصادفی یا کاملا تصادفی MNAR MCAR ,MAR از دست رفته اند درحل مشکل مهم است

نوامبر 29 2020

مثال کاربردی از کاهش ابعاد با تحلیل مولفه اساسی (PCA)

آموزش, آموزش تصویری و گام به گام, پیش پردازش داده ها, داده کاوی و تجزیه و تحلیل آماری, مفاهیم پایه علم داده, مفاهیم پیشرفته, یادگیری ماشین

کاهش ابعاد یکی از مباحث زمینه ای پرکاربرد در حوزه علم داده است.
در این مقاله قصد داریم به صورت کاربدی مساله کاهش ابعاد یا (PCA) را بررسی کنیم

نوامبر 10 2020

پیش پردازش داده ها با پایتون

آموزش, آموزش پیش پردازش داده ها, آموزش تصویری و گام به گام, پیش پردازش داده ها, مفاهیم پایه علم داده

هسته اصلی یادگیری ماشین پردازش داده ها است. قبل از شروع کار با الگوریتم های یادگیری ماشین داده ها باید آماده شوند تا دقت و خروجی کار بالاتر رود. در این مطلب قصد داریم با یک مثال عملی پیش پردازش …

پیش پردازش داده ها با پایتون ادامه مطلب »

اکتبر 30 2020

نمونه گیری Oversampling و Undersampling در داده های نامتوازن

پیش پردازش داده ها, داده کاوی و تجزیه و تحلیل آماری, مفاهیم پیشرفته

در یادگیری ماشین نمونه گیری Undersampling و نمونه گیری Oversampling دو روش هستند که با در برخورد با داده های نامتوازن به کار می روند.می توانید از کلاس اکثریت کم نمونه گیری کنید یا روی کلاس اقلیت را بیش نمونه گیری انجام دهید یا از ترکیب هر دو روش استفاده کنید

اکتبر 24 2020