EITC/AI/ARL Advanced Reinforcement Learning برنامه صدور گواهینامه فناوری اطلاعات اروپا در رویکرد DeepMind برای یادگیری تقویتی در هوش مصنوعی است.
برنامه درسی آموزش تقویتی پیشرفته EITC/AI/ARL بر جنبههای نظری و مهارتهای عملی در تکنیکهای یادگیری تقویتی از دیدگاه DeepMind که در ساختار زیر سازماندهی شده است، متمرکز است و محتوای آموزشی ویدیویی جامع را به عنوان مرجعی برای این گواهینامه EITC در بر میگیرد.
یادگیری تقویت (RL) منطقه ای از یادگیری ماشینی است که به چگونگی اقدام عوامل هوشمند در یک محیط برای به حداکثر رساندن مفهوم پاداش تجمعی مربوط می شود. یادگیری تقویت یکی از سه الگوی اساسی یادگیری ماشین در کنار یادگیری تحت نظارت و یادگیری بدون نظارت است.
یادگیری تقویت با یادگیری نظارت شده در عدم نیاز به ارائه جفت های ورودی/خروجی برچسب دار و عدم نیاز به اقدامات زیر بهینه برای اصلاح صریح تفاوت دارد. در عوض تمرکز بر یافتن تعادل بین اکتشاف (سرزمین ثبت نشده) و بهره برداری (از دانش فعلی) است.
محیط به طور معمول در قالب یک فرایند تصمیم گیری مارکوف (MDP) بیان می شود ، زیرا بسیاری از الگوریتم های یادگیری تقویت کننده برای این زمینه از تکنیک های برنامه نویسی پویا استفاده می کنند. تفاوت اصلی بین روشهای کلاسیک برنامه نویسی پویا و الگوریتمهای یادگیری تقویت کننده این است که روشهای دوم دانش دقیق یک مدل ریاضی از MDP را فرض نمی کنند و آنها MDP های بزرگ را در صورت غیرقابل اجرا بودن هدف قرار می دهند.
به دلیل عمومیت ، یادگیری تقویت در بسیاری از رشته ها مانند نظریه بازی ، نظریه کنترل ، تحقیقات عملیاتی ، نظریه اطلاعات ، بهینه سازی مبتنی بر شبیه سازی ، سیستم های چند عاملی ، هوش انبوه و آمار مورد مطالعه قرار می گیرد. در ادبیات تحقیق و کنترل عملیات ، یادگیری تقویت را برنامه نویسی تقریبی پویا یا برنامه ریزی عصبی پویا می نامند. مشکلات مورد علاقه در یادگیری تقویت نیز در نظریه کنترل بهینه مورد مطالعه قرار گرفته است ، که بیشتر مربوط به وجود و توصیف راه حل های بهینه و الگوریتم های محاسبه دقیق آنها است ، و کمتر مربوط به یادگیری یا تقریب ، به ویژه در غیاب یک مدل ریاضی از محیط. در اقتصاد و تئوری بازی ، ممکن است از یادگیری تقویت برای توضیح چگونگی ایجاد تعادل تحت عقلانیت محدود استفاده شود.
تقویت اولیه به عنوان یک فرایند تصمیم گیری مارکوف (MDP) مدل سازی می شود. در ریاضیات ، یک فرایند تصمیم گیری مارکوف (MDP) یک فرآیند کنترل تصادفی با زمان گسسته است. این یک چارچوب ریاضی برای مدل سازی تصمیم گیری در شرایطی است که نتایج تا حدی تصادفی و بخشی تحت کنترل تصمیم گیرنده است. MDP برای مطالعه مشکلات بهینه سازی حل شده از طریق برنامه نویسی پویا مفید است. MDP حداقل در دهه 1950 شناخته شده بود. یک مجموعه اصلی از تحقیقات درباره فرآیندهای تصمیم گیری مارکوف از کتاب رونالد هوارد ، برنامه نویسی پویا و فرایندهای مارکوف ، در سال 1960 حاصل شد. آنها در بسیاری از رشته ها از جمله رباتیک ، کنترل خودکار ، اقتصاد و تولید استفاده می شوند. نام MDP ها از ریاضیدان روسی آندری مارکوف گرفته می شود زیرا آنها امتداد زنجیره های مارکوف هستند.
در هر مرحله زمان ، روند کار در برخی از حالت های S است و تصمیم گیرنده ممکن است هر عملی را که در حالت S موجود است انتخاب کند. این فرآیند در مرحله بعدی پاسخ می دهد و به طور تصادفی به حالت جدید S منتقل می شود و تصمیم گیرنده پاداش مربوطه Ra (S ، S ').
احتمال اینکه روند به حالت جدید خود برود S 'تحت تأثیر عمل انتخابی قرار می گیرد. به طور خاص ، توسط تابع انتقال حالت Pa (S ، S ') داده می شود. بنابراین ، حالت بعدی S به وضعیت فعلی S و عمل تصمیم گیرنده بستگی دارد. اما با توجه به S و a ، به طور مشروط از همه حالات و اعمال قبلی مستقل است. به عبارت دیگر ، انتقال حالت MDP خاصیت مارکوف را برآورده می کند.
فرایندهای تصمیم گیری مارکوف گسترش زنجیره های مارکوف است. تفاوت در جمع اعمال (اجازه انتخاب) و پاداش (انگیزه دادن) است. برعکس ، اگر فقط یک اقدام برای هر ایالت وجود داشته باشد (مثلاً "منتظر بمانید") و همه پاداشها یکسان باشند (به عنوان مثال "صفر") ، فرایند تصمیم گیری مارکوف به یک زنجیره مارکوف کاهش می یابد.
یک عامل یادگیری تقویت کننده در مراحل زمانی گسسته با محیط خود ارتباط برقرار می کند. در هر زمان t ، عامل حالت فعلی S (t) و پاداش r (t) را دریافت می کند. سپس یک عمل a (t) را از مجموعه اقدامات موجود انتخاب می کند که متعاقباً به محیط ارسال می شود. محیط به حالت جدید S (t + 1) منتقل می شود و پاداش r (t + 1) مرتبط با انتقال تعیین می شود. هدف یک عامل یادگیری تقویت ، یادگیری سیاستی است که پاداش تجمعی مورد انتظار را به حداکثر برساند.
فرمول بندی مسئله به عنوان MDP فرض می کند عامل مستقیماً وضعیت محیطی فعلی را مشاهده می کند. در این حالت گفته می شود مشکل دارای قابلیت مشاهده پذیری کامل است. اگر عامل فقط به زیرمجموعه ای از ایالت ها دسترسی داشته باشد ، یا اگر ایالات مشاهده شده در اثر سر و صدا خراب شوند ، گفته می شود عامل دارای قابلیت مشاهده جزئی است و به طور رسمی مسئله باید به عنوان یک فرآیند تصمیم گیری تا حدودی قابل مشاهده در مارکوف تنظیم شود. در هر دو مورد ، مجموعه اقدامات موجود برای نماینده می تواند محدود شود. به عنوان مثال ، وضعیت موجودی حساب می تواند مثبت باشد. اگر مقدار فعلی دولت 3 باشد و انتقال دولت تلاش کند تا مقدار را 4 کاهش دهد ، انتقال مجاز نخواهد بود.
وقتی عملکرد نماینده با عملکردی که بهینه عمل می کند مقایسه می شود ، تفاوت در عملکرد باعث پشیمانی می شود. برای اقدام بهینه مطلوب ، نماینده باید در مورد عواقب طولانی مدت اقدامات خود استدلال کند (یعنی حداکثر درآمد آینده) ، اگرچه پاداش فوری مرتبط با آن ممکن است منفی باشد.
بنابراین ، یادگیری تقویت به ویژه برای مشکلاتی که شامل یک معامله پاداش بلند مدت و کوتاه مدت است ، بسیار مناسب است. با موفقیت برای مشکلات مختلفی از جمله کنترل ربات ، زمانبندی آسانسور ، ارتباطات از راه دور ، تخته نرد ، چکرز و Go (AlphaGo) استفاده شده است.
دو عنصر یادگیری تقویت را قدرتمند می کنند: استفاده از نمونه ها برای بهینه سازی عملکرد و استفاده از تقریب عملکرد برای مقابله با محیط های بزرگ. به لطف این دو م keyلفه کلیدی ، در شرایط زیر می توان از یادگیری تقویت در محیط های بزرگ استفاده کرد:
- یک مدل از محیط زیست شناخته شده است ، اما یک راه حل تحلیلی در دسترس نیست.
- فقط یک مدل شبیه سازی از محیط ارائه شده است (موضوع بهینه سازی مبتنی بر شبیه سازی).
- تنها راه جمع آوری اطلاعات در مورد محیط زیست تعامل با آن است.
دو مورد از این مشکلات اول را می توان مشکلات برنامه ریزی در نظر گرفت (از آنجا که شکلی از مدل در دسترس است) ، در حالی که آخرین مورد را می توان یک مسئله یادگیری واقعی دانست. با این حال ، یادگیری تقویت کننده هر دو مسئله برنامه ریزی را به مشکلات یادگیری ماشین تبدیل می کند.
معامله اکتشاف در مقابل بهره برداری به طور کامل از طریق مشکل راهزنی چند مسلح و MDP های فضای محدود دولت در Burnetas و Katehakis (1997) بررسی شده است.
یادگیری تقویت به مکانیزم های کاوش هوشمندانه نیاز دارد. انتخاب تصادفی اقدامات ، بدون مراجعه به توزیع احتمال تخمین زده شده ، عملکرد ضعیفی را نشان می دهد. فرایندهای تصمیم گیری محدود مارکوف (کوچک) نسبتاً خوب درک شده است. با این وجود ، به دلیل کمبود الگوریتم هایی که متناسب با تعداد حالت ها (یا مقیاس مناسب مشکلات فضاهای حالت نامحدود) مقیاس بندی شوند ، روشهای اکتشاف ساده از عملی ترین هستند.
حتی اگر موضوع اکتشاف نادیده گرفته شود و حتی اگر ایالت قابل مشاهده باشد ، با این وجود همچنان باید از تجربه گذشته استفاده کرد تا بفهمیم کدام اقدامات منجر به پاداش تجمعی بالاتر می شود.
برای آشنایی کامل با برنامه درسی گواهینامه می توانید جدول زیر را گسترش داده و تجزیه و تحلیل کنید.
برنامه درسی گواهینامه یادگیری تقویتی پیشرفته EITC/AI/ARL به مواد آموزشی با دسترسی آزاد در فرم ویدیویی ارجاع می دهد. فرآیند یادگیری به یک ساختار گام به گام (برنامه ها -> درس ها -> موضوعات) تقسیم می شود که بخش های برنامه درسی مربوطه را پوشش می دهد. مشاوره نامحدود با کارشناسان حوزه نیز ارائه می شود.
برای جزئیات بیشتر در مورد روش صدور گواهینامه بررسی کنید چگونه کار می کند.
منابع مرجع برنامه درسی
کنترل سطح انسانی از طریق انتشار یادگیری تقویت عمیق
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
دوره دسترسی آزاد در مورد یادگیری تقویت عمیق در UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL از Manifold.ai به مشکل راهزن بازو K استفاده کرد
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
دانلود کامل مطالب آماده سازی خودآموز آفلاین برای برنامه آموزش تقویت پیشرفته EITC/AI/ARL در یک فایل PDF