CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

تفاضل زمانی تخلیص شده 1 با تقریب زننده های تابع 2: بیان مثالهای موفق باCMAC

عنوان مقاله: تفاضل زمانی تخلیص شده 1 با تقریب زننده های تابع 2: بیان مثالهای موفق باCMAC
شناسه ملی مقاله: ICEE11_093
منتشر شده در یازدهمین کنفرانس مهندسی برق در سال 1382
مشخصات نویسندگان مقاله:

جواد عبدی - گروه مهندسی برق وکامپیوتر دانشکده فنی دانشگاه تهران
کارو لوکس - مرکز تحقیقات فیزیک نظری ایران
علی خاکی صدیق - گروه مهندسی برق و کامپیوتر دانشکده فنی دانشگاه صنعتی خواجه نصیرالدین طوسی
اعظم فامیل خلیلی - گروه مهندسی کامپیوتر دانشکده فنی دانشگاه آزاد اسلامی واحد کرج

خلاصه مقاله:
ترکیب الگوریتم یادگیری تقویتی 3 با تقریب زننده های تابعی برای تعمیم فضای حالت اخیراً از توجه ویژه ای برخوردار شده و به صورت گسترده ای این اعتقاد وجود دارد که یکی از موارد تعیین کننده برای سنجش میزان یادگیری تقویتی به قلمروهای جالب عملی، است . این مقاله ترکیب TTD یک پیاده سازی تقریبی مؤثر محاسباتی از روشهای TD(λ باCMAC یک تقریب گر تابع به ویژه مناسب برای یادگیری تقویتی درخور کارآیی محاسباتی آن و توانایی یادگیری پیوسته را مورد بررسی قرار می دهد . اکثر مطالعات قبلی ترکیب CMAC با الگوری تمهای براساس TD(0که معمولا برای λ >0یادگیری بسیار آهسته تر صورت می گیرد ، یا با پیاده سازی مرسوم TD(λ که بر اساس آثار صلاحیت است به همر اه هزینه های محاسباتی بالا مورد بررسی قرار داده اند . مطالعه فعلی، سعی دارد با ترکیب TTD و CMAC یادگیری سریع با کارآیی محاسباتی و توانمندی های تعمیم ی را بیان کند . نتایج تجربی ارائه شده، عملکرد موفقیت آمیز الگوریتم یادگیری Q را که با استفاده از دستورالعمل CMAC و TTD در دو کار با فضاهای حالت پیوسته پیاده سازی شده اند، را نشان می دهد

کلمات کلیدی:
یادگیری تقویتی، یادگیری تفاضل زمانی، تفاضل زمانی تخلیص شده، پاداش، تقریب، عاملهای یادگیر، بروزآوری

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/152099/