بررسی ارتباط طول عمر کنترلکننده و شیوهی تصمیم گیری بهینه در حل مسألهیMABبا استفاده از یادگیری تقویتی

سیدمصطفی کلامی هریس; محمدباقر نقیبی سیستانی

بررسی ارتباط طول عمر کنترلکننده و شیوهی تصمیم گیری بهینه در حل مسألهیMABبا استفاده از یادگیری تقویتی

محل انتشار: دومین کنگره مشترک سیستمهای فازی و هوشمند ایران

سال انتشار: 1387

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 826

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > یادگیری ماشین

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/204019

شناسه ملی سند علمی:

FJCFIS02_310

تاریخ نمایه سازی: 26 تیر 1392

چکیده مقاله:

مسألهیMAB کاربردهای وسیعی در علوم مهندسی، آمار، اقتصاد و روانشناسی دارد و در شاخههای مختلف علمی و فنی به اشکال متفاوتی ظاهر میشود. یکی از چالشهایی که در حل این مسأله وجود دارد، لزوم برقراری تعادل میان بهرهجویی از اطلاعات فعلی کسب اطلاعات جدید از محیط میباشد. این دو پدیده، به ترتیب به نامهای بهرهبرداریExploitation) و جستجوExploration) معروف هستند. روشی که در این مقاله برای حل مسألهی MAB به کار رفته است، روش یادگیری تقویتی است. این روش، که نوعی رویکرد یادگیری غیر نظارت شده را پیادهسازی میکند، این امکان را فراهم میکند که با تغییر پارامترهای تصمیمگیری، تعادل مطلوب بین پدیدههای جستجو و بهرهبرداری به وجود بیایند. در این نوشتار، با انجام آزمایشهای متعدد، ارتباط میان پارامترهای تصمیمگیری و طول بازهی زمانی برای حل مسأله، که به طول عمر کنترل کننده یا عامل یادگیرنده معروف است، مورد بررسی قرار گرفته است.

کلیدواژه ها:

تخصیص منابع ، تصمیم گیری ، یادگیری تقویتی ، یادگیری ماشینی. Multi-Armed Bandit (MAB

نویسندگان

سیدمصطفی کلامی هریس

دانشکدهی مهندسی دانشگاه فردوسی مشهد

محمدباقر نقیبی سیستانی

استادیار

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

عبارت دیگر، هر چه عامل یادگیرنده و یا کنترل کننده ...
Leslie Pack Kaelbling, Michael L. Littman and _ Moore, "Reinforcement ...
Berry, D. and B. Fristedt, Bandit _ _ Allocation of ...
_ _ _ Computation, vol. 196, Issue 2, pp. 913-922, ...
Dirk Bergemann and Juuso Valimiki, _ Problems, " _ Discussion ...
news _ _ Goodء [5] Braz Camargo, bandits, " in ...
Tom M. Mitchell, Machine Learning. McGraw Hill, _ ...
A. Mahajan and D. Teneketzis, "Chapter 6: Multi-Ar##d Bandit Problems, ...
Peter Auer t al, _ non-stochastic multi-armed bandit problem, " ...
P. Auer, N. Cesa-Bianchf and Paul Fischer, "Finite-time Analysis of ...
S. I. Reynolds, "Reinforcement Learning with Exploration, " Ph.D. Thesis, ...

نمایش کامل مراجع