بررسی ارتباط طول عمر کنترلکننده و شیوهی تصمیم گیری بهینه در حل مسألهیMABبا استفاده از یادگیری تقویتی

سیدمصطفی, کلامی هریس; محمدباقر, نقیبی سیستانی

بررسی ارتباط طول عمر کنترلکننده و شیوهی تصمیم گیری بهینه در حل مسألهیMABبا استفاده از یادگیری تقویتی

عنوان مقاله: بررسی ارتباط طول عمر کنترلکننده و شیوهی تصمیم گیری بهینه در حل مسألهیMABبا استفاده از یادگیری تقویتی
شناسه ملی مقاله: FJCFIS02_310
منتشر شده در دومین کنگره مشترک سیستمهای فازی و هوشمند ایران در سال 1387

مشخصات نویسندگان مقاله:

سیدمصطفی کلامی هریس - دانشکدهی مهندسی دانشگاه فردوسی مشهد
محمدباقر نقیبی سیستانی - استادیار

خلاصه مقاله:

مسألهیMAB کاربردهای وسیعی در علوم مهندسی، آمار، اقتصاد و روانشناسی دارد و در شاخههای مختلف علمی و فنی به اشکال متفاوتی ظاهر میشود. یکی از چالشهایی که در حل این مسأله وجود دارد، لزوم برقراری تعادل میان بهرهجویی از اطلاعات فعلی کسب اطلاعات جدید از محیط میباشد. این دو پدیده، به ترتیب به نامهای بهرهبرداریExploitation) و جستجوExploration) معروف هستند. روشی که در این مقاله برای حل مسألهی MAB به کار رفته است، روش یادگیری تقویتی است. این روش، که نوعی رویکرد یادگیری غیر نظارت شده را پیادهسازی میکند، این امکان را فراهم میکند که با تغییر پارامترهای تصمیمگیری، تعادل مطلوب بین پدیدههای جستجو و بهرهبرداری به وجود بیایند. در این نوشتار، با انجام آزمایشهای متعدد، ارتباط میان پارامترهای تصمیمگیری و طول بازهی زمانی برای حل مسأله، که به طول عمر کنترل کننده یا عامل یادگیرنده معروف است، مورد بررسی قرار گرفته است.

کلمات کلیدی:

تخصیص منابع، تصمیم گیری، یادگیری تقویتی، یادگیری ماشینی. Multi-Armed Bandit (MAB

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/204019/