خانه » داده کاوی و تجزیه و تحلیل آماری

داده کاوی و تجزیه و تحلیل آماری

Data Mining به کاربرد آمار در قالب تجزیه و تحلیل داده های اکتشافی و مدل های پیش بینی کننده برای یافتن الگوها و روند داده ها از داده های موجود استفاده می شود.
داده کاوی عموما توسط شرکتها برای تبدیل داده های خام به اطلاعات مفید استفاده می شود.با جستجوی الگوهای در دسته های بزرگ از داده ها ، مشاغل می توانند در مورد مشتریان خود اطلاعات بیشتری کسب کنند تا استراتژی های بازاریابی مؤثرتری را توسعه دهند ، فروش را افزایش دهند و هزینه های خود را کاهش دهند.
مشاغل مرتبط: دانشمند داده ، تحلیلگر تجارت ، آمارشناس

طراحی یک سیستم توصیه گر فیلم بر روی مجموعه داده MovieLens

استفاده از سیستم های توصیه گر هر روز در حال افزایش است .دراین مقاله قصد داریم یک سیستم توصیه گر ساده بر روی مجموعه داده سایت MovieLens طراحی کنیم.

مقایسه زبان python و R برای کار در حوزره علم داده

یکی از دلهره آورترین تصمیماتی که برنامه نویسان هنگام گرفتن یک پروژه جدید می گیرند انتخاب زبان برنامه نویسی مناسب است. Python و R بدون شک در هنگام انتخاب یک زبان برنامه نویسی برای یک پروژه علم داده (Data Science …

مقایسه زبان python و R برای کار در حوزره علم داده ادامه مطلب »

تفاوت مهندس داده و دانشمند داده

مهندس داده و دانشمند داده دوتا از پرمخاطب ترین شغل های حوزه علم داده هستند. ولی تفاوت این شغل ها برای بسیاری مبهم و نامشخص است. در این مطلب قصد داریم این دو شغل را بررسی کینم و تفاوت آن ها با هم مقایسه کنیم.

۵ نکته ای که باید در مورد کلان داده یا Big Data بدانید

کلان داده یا بیگ دیتا زمینه است که هر روز در حال افزایش است. به همین جهت دانستن مفاهیم و الزامات این حوزه ضروری بنظر می رسد. در این مقاله قصد داریم ۵ نکته مهم در زمینه بیگ دیتا را با هم بررسی کنیم.

رگرسیون خطی

تحلیل رگرسیون از مجموعه ای از روش های یادگیری ماشین تشکیل شده است که برای پیش بینی یک مقدار پیوسته از مدل های رگرسیون استفاده می شود. پیش بینی قیمت های خانه با توجه به ویژگی های خانه مانند اندازه ، قیمت و غیره یکی از نمونه های متداول رگرسیون است. این یک تکنیک با نظارت است. رگرسیون خطی یکی از ساده ترین الگوریتم های یادگیری با نظارت در مجموعه ابزارها می باشد که دو نوع ساده و چند گانه دارد.

6 الگوریتم خوشه بندی (clustering) که متخصصین علم داده باید بدانند

خوشه بندی یک تکنیک یادگیری است که شامل گروه بندی نقاط داده می شود. با توجه به مجموعه ای از نقاط داده ، می توان از یک الگوریتم خوشه بندی برای طبقه بندی هر نقطه داده به یک گروه خاص …

6 الگوریتم خوشه بندی (clustering) که متخصصین علم داده باید بدانند ادامه مطلب »

درخت تصمیم

درخت تصمیم یکی از معروف ترین الگوریتم های یادگیری ماشین می باشد که بر یک منطقه وسیع از یادگیری ماشین تاثیر گذاشته است و هم در مسائل طبقه بندی و هم در مسائل رگرسیون کاربرد دارد و همان طور که از نام آن پیداس از الگوی تصمیم گیری درخت مانند استفاده می کند. درخت تصمیم یکی از تفسیر پذیرترین مدل ها در یادگیری ماشین می باشد و در پایتون با استفاده از scikit-learn میتواند آن را به راحتی پیاده سازی کرد.

کاهش ابعاد با استفاده از انتخاب ویژگی

انتخاب ویژگی ها و کاهش ابعاد به ما این امکان را می دهد تعداد ویژگی های یک مجموعه داده را فقط با حفظ ویژگی های مهم به حداقل برسانیم. مزایای مختلفی در انجام انتخاب ویژگی و کاهش ابعاد وجود دارد که شامل تفسیرپذیری مدل، به حداقل رساندن بیش از حد مناسب و همچنین کاهش اندازه مجموعه train و در نتیجه زمان train است.

کاهش ابعاد

تجزیه و تحلیل مشتریان مبتنی بر مدل RFM

مدل RFM یک روش محبوب و کارا برای تجزیه و تحلیل مشتریان است. در این روش از ۳ معیار اخرین خرید مشتری، تعداد دفعات خرید و مبلغ خرید استفاده می شود. با استفاده از این معیار ها مدل RFM طراحی می شود. با روش های مصور سازی داده اطلاعات بدست آمده از مدل نمایش داده می شود.

پیش بینی مقادیر مفقود شده با رگرسیون خطی و جنگل تصادفی در پایتون

در این پست ما در مورد چگونگی ساختن مدلهای یادگیری ماشین برای پیش بینی مقادیر مفقود شده در داده ها پرداختیم. در ابتدا ما یک مدل رگرسیون خطی آموزش داده شده بر روی ویژگی “امتیاز” برای پیش بینی قیمت نوشیدنی ساختیم. سپس ما یک مدل جنگلی تصادفی راکه بر روی ویژگی “امتیاز” و متغیرهای کیفی آموزش دادیم تا قیمت نوشیدنی را پیش بینی کنیم. ما دیدیم که مدل جنگلهای تصادفی به طور قابل توجهی از مدل مبتنی بر رگرسیون خطی بهتر است.

به بالای صفحه بردن