تحلیل یادگیری تقویتی در فرایندهای مارکوف به صورت سیستمهای دیجیتال

سیدمصطفی, کلامی هریس; ناصر, پریز; محمدباقر, نقیبی سیستانی

تحلیل یادگیری تقویتی در فرایندهای مارکوف به صورت سیستمهای دیجیتال

عنوان مقاله: تحلیل یادگیری تقویتی در فرایندهای مارکوف به صورت سیستمهای دیجیتال
شناسه ملی مقاله: FJCFIS02_318
منتشر شده در دومین کنگره مشترک سیستمهای فازی و هوشمند ایران در سال 1387

مشخصات نویسندگان مقاله:

سیدمصطفی کلامی هریس - دانشجوی کارشناسی ارشد مهندسی کنترل
ناصر پریز - استادیاردانشگاه فردوسی مشهد
محمدباقر نقیبی سیستانی - استادیار دانشگاه فردوسی مشهد

خلاصه مقاله:

فرایند تصمیمگیری مارکوف یاMDPیکی از مسائلی است که دارای کاربردهای وسیعی در زمینههای مختلف علمی، مهندسی،اقتصادی و مدیریت است. بسیاری از فرایندهای تصمیمگیری دارای خاصیت مارکوف میباشند و به صورت یک مسألهی تصمیمگیری مارکوف قابل بیان هستند. یادگیری تقویتی یکی از مسائلی است که برای حلMDPبه کار میرود، که به نوبهی خود از برنامهریزی پویا یاDPاستفاده میکند. در این مقاله معادلهی بازگشتی مورد استفاده در بحث یادگیری تقویتی وDPبرای حلMDP به صورت یک معادلهی دینامیکی یک سیستم دیجیتال یا گسسته-زمان بازنویسی شده است. به این ترتیب این امکان به وجود آمده است که بتوان با بهرهگیری از روشهای موجود در کنترل دیجیتال، به بررسی خواص معادلات به دست آمده پرداخت و تحلیل مناسبی از رفتار عاملیادگیرنده، تحت سیاستهای مختلف، به عمل آورد. به عنوان مثال، روش مذکور برای تحلیل یک مسألهی جدولی استفاده شده است. نتایج به دست آمده، نشان میدهند که یک سیاست بهینه در پارچوب کنترل دیجیتال، به صورت سیستم مرده نَوِشقابل توصیف است

کلمات کلیدی:

برنامهریزی پویا، سیستمهای کنترل دیجیتال، فرایندهای تصمیمگیری مارکوف، کنترل تصادفی، یادگیری تقویتی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/204027/