یادگیری تقویتی روشی است که در آن عامل با در نظر گرفتن حالت محیط، از بین همه اعمال ممکن یکی را انتخاب می کند و محیط در ازای انجام آن عمل، یک سیگنال عددی به نام پاداش به عامل باز می گرداند. هدف عامل این است که از طریق سعی و خطا سیاستی را بیابد که با دنبال کردن آن به بیشترین پاداش ممکن برسد. در این پروژه سعی داریم به یک عامل یاد بدهیم چگونه مواد مورد نیاز برای درست کردن یک کیک را با استفاده از یادگیری تقویتی جمع آوری کند. محیط به صورت یک ماز است که یک هیولا در آن وجود دارد و در یک سری از خانه ها چاله وجود دارد که مانع عامل ما هستند. عامل باید سه ماده آرد، شکر و تخم مرغ را در کوتاهترین زمان جمع آوری کند بدون آنکه هیولا او را بگیرد.

مقدمه

کارهای مرتبط

آزمایش‌ها

کارهای آینده

مراجع

محمد غضنفری، "بهبود عملکرد عامل شبیه‌سازی فوتبال دوبعدی با استفاده از یادگیری تقویتی "، پایان‌نامه کارشناسی، دانشگاه علم و صنعت ایران، ۱۳۹2. لینک
R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction. Cambridge, United States of America: MIT Press, 1998.

پیوندهای مفید

یک نمونه استفاده از این مسئله برای پیاده‌سازی روش سارسا و یادگیری کیو
یک نمونه استفاده از این مسئله برای پیاده‌سازی روش value iteration و policy iteration
Reinforcement learning

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

reinforcement-learning-the-cake-problem.md

reinforcement-learning-the-cake-problem.md

مقدمه

کارهای مرتبط

آزمایش‌ها

کارهای آینده

مراجع

پیوندهای مفید

Files

reinforcement-learning-the-cake-problem.md

Latest commit

History

reinforcement-learning-the-cake-problem.md

File metadata and controls

مقدمه

کارهای مرتبط

آزمایش‌ها

کارهای آینده

مراجع

پیوندهای مفید