یادگیری تقویتی برای مبتدیان

یادگیری تقویتی یکی از حوزه های علم داده و یادگیری ماشینی است که هر روز در حال توسعه و گسترش است. برای درک بهتر موضوع یک مثال می زنیم.
فرض کنید می خواهیم با یک اتومبیل از یک نقطه به نقطه دیگر برویم. برای این کار چند مرحله وجود دارد.
در را باز کنید ، موتور را روشن کنید ، دنده ها را تغییر دهید ، در بعضی مواقع شتاب بگیرید ، در بعضی مواقع ترمز کنید و ….
آنچه ما در اینجا به آن نیاز داریم ، روشی است که به ما کمک می کند تا بهینه ترین مراحل پی در پی را بیاموزیم که به ما در رسیدن به مقصد کمک می کند. یادگیری تقویتی به ما کمک می کند تا توالی بهینه از مراحل رسیدن به هدف نهایی خود (رسیدن به مقصد خود) را با استفاده از آزمایش و خطا یاد بگیریم. حالا با استفاده از مثال بالا مفاهیم اساسی یادگیری تقویتی را با یکدیگر بررسی می کنیم.

۱. محیط: مکانی است که سیستم ما در آن قرار دارد. در مثال ما ماشین و جاده های شهر که می خواهیم در آن رانندگی کنیم محیط ما می باشند

۲. عامل(Agent): عامل چیزی است که با محیط در ارتباط است. در مثال رانندگی با ماشین عامل ما راننده است.

۳. فعالیت: فعالیت توسط عامل در محیط انجام می شود. مانند ترمز کردن رانند در ماشین

۴. وضعیت(State): وقتی عملی انجام می شود (اعمال ترمز) ، تغییرات مشاهده می شوند. در این حالت شرایط اتومبیل از یک وضعیت(در حال حرکت) به وضعیت دیگر(ایستاده) تغییر می کند.

۵. پاداش: پاداش یک جایزه فوری است که هنگام انجام یک عمل اهدا می شود. این پاداش می تواند مثبت باشد (وقتی به حالت نهایی رسیدید ، در مورد ما به مقصد نهایی) یا منفی (هنوز به مقصد نرسیده اید).
سیستم پاداش نیز مطابق با سیستم قابل تغییر است.می توان هنگام نزدیک شدن به مقصد ، پاداش های کوچکی در نظر بگیرید. پاداش بزرگتر در هنگام رسیدن به مقصد نهایی.

۶. خط مشی: یک سیاست نحوه رفتار عامل یادگیری را در یک زمان معین مشخص می کند.مثلا نحوه رانندگی یک شخص در یک کشور

۷. قسمت: کل چرخه ای که عامل (راننده) در آن شروع می شود و به نوعی ، انجام بسیاری از اقدامات و حالت های تغییر یافته به حالت ترمینال می رسد یک قسمت گفته می شود. برای کشف یک مسیر مطلوب ، بسیاری از قسمتهای مختلف بارها و بارها انجام می شود. این شبیه به دوره ها در یادگیری عمیق است.

۸. کاوش: هرگاه عامل ، عملی را به صورت تصادفی انجام دهد بدون در نظر گرفتن پاداش و زیان آن آن را کاوش می نامیم.

۹. خاصیت مارکوف: خاصیت مارکوف یا خاصیت بیاد ماندنی بیان می کند که وضعیت آینده فقط به وضعیت فعلی و نه به وضعیتهای گذشته عامل بستگی دارد.
برای مثال در پرتاب بی نهایت بار تاس حتی اگر قبلا چند بار پشت هم یک خاص مثلا ۵ بیایید در پرتاب بعدی باز هم احتمال ۵ امدن ۱/۶ است. و وضعیت اینده تاس ربطی به پرتاب های گذشته ندارد.

۱۰.فرآیند مارکوف: یک فرآیند مارکوف در واقع یک فرآیند با دنباله ای از حالت های تصادفی است که دارای خاصیت مارکوف هستند. لازم به ذکر است که روند مارکوف دارای حالات نامتناهی است

۱۱.زنجیره مارکوف: شبیه به روند مارکوف است اما با تعداد محدودی وضعیت.

۱۲. فاکتور تخفیف: این کسری ثابت بین 0-1 است که به ما کمک می کند تا در هنگام انجام اقدام ، تعادل را در تعیین میزان پاداش های آینده در تعیین سیاست در یک وضعیت معین ایفا کنیم. در واقع ۱ به معنی بالاترین پاداش و ۰ به معنی کمترین مقدار است.

در یادگیری تقویتی ما باید به این نکته توجه داشته باشیم که هدف این است که در یک زنجیره فعالیت تا رسیدن به هدف بیشنه کردن جایزه است.

۱۳. تابع ارزش گذاری: یک تابع است که مشخص می کند چقدر باید وضعیت فعلی را ترجیه دهیم یا به یک وضعیت دیگر برویم. در واقع در تلاش است وضعیت های بعدی را پیش بینی کند تا کل زنجیره به پاداش بیشینه برسد.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *