توصیف خودکار تصویر با مکانیسم توجه و مدل زبان تکراری

الهام, حیدری; مرضیه, عبدالملکی; علیرضا, طاهری تجر; میرحسین, دزفولیان; محرم, منصوری زاده

توصیف خودکار تصویر با مکانیسم توجه و مدل زبان تکراری

عنوان مقاله: توصیف خودکار تصویر با مکانیسم توجه و مدل زبان تکراری
شناسه ملی مقاله: CEITCONF04_041
منتشر شده در چهارمین کنفرانس ملی کامپیوتر، فناوری اطلاعات و کاربردهای هوش مصنوعی در سال 1399

مشخصات نویسندگان مقاله:

الهام حیدری - دانشجوی کارشناسی ارشد هوش مصنوعی ،
مرضیه عبدالملکی - دانشجوی کارشناسی ارشد هوش مصنوعی ،
علیرضا طاهری تجر - کارشناس ارشد برق ،
میرحسین دزفولیان - استادیار گروه کامپیوتر ،
محرم منصوری زاده - دانشیار گروه کامپیوتر ،

خلاصه مقاله:

در مسائل کاربردی بینایی ماشین و فهم زبان ، نمایش دقیق تصویر از اهمیت بالایی برخوردار است. بیشتر سیستم های فعلی از ویژگیهای بصری و مفاهیم متنی به عنوان طرح کلی از تصویر استفاده می کنند. با این حال ، بازنمایی های کاملا استنباطی معمولا از این نظر نامطلوب هستند که از مولفه های جداگانه ای تشکیل شده اند و روابط بین آنها قابل محاسبه نیست علاوه بر این نمی توانند مفاهیم مهم تصویر را در توصیفات تولیدشده جای دهند . در این مقاله یک فرایند تکرار شونده جهت رسیدن به توصیف پیشنهاد شده است . ما تصاویر ورودی را با مجموعه ای از مناطق بصری و مفاهیم متنی متناظر که منعکس کننده مفاهیم معنایی خاص هستند، پردازش می کنیم . برای این منظور ، دو ماژول توجه را ایجاد می کنیم که به ترتیب با به روز رسانی متقابل ، ویژگی های بصری و مفاهیم متنی استخراج شده از تصویر را ادغام می کنند. خروجی دو ماژول قبل به مدل زبانی ارسال شده و این فرایند تکراری تا رسیدن به توصیف مطلوب ادامه می یابد . جهت انتخاب بهینه هایپرپارامترهای مدل ، از الگوریتم ژنتیک استفاده شده است . آزمایش ها بر روی مجموعه داده عظیم MS COCO انجام شده است. نتایج نشان میدهد که روش ما موثر است و بسیار سریع همگرا می شود . مدل پیشنهادی می تواند به طیف گسترده ای از مدل ها برای کاربردهای مربوط به تصویر و زبان تعمیم یابد.

کلمات کلیدی:

توصیف تصویر ، مکانیسم توجه ، تشخیص اشیاء

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1238759/