CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

توصیف تصاویر مبتنی بر شبکه عمیق رمزگذار-رمزگشا و سازوکار توجه بر توجه

عنوان مقاله: توصیف تصاویر مبتنی بر شبکه عمیق رمزگذار-رمزگشا و سازوکار توجه بر توجه
شناسه ملی مقاله: JR_JMVIP-10-2_006
منتشر شده در در سال 1402
مشخصات نویسندگان مقاله:

زهرا فامیل ستاری - آزمایشگاه هوش و بینایی ربات، گروه مهندسی کامپیوتر، دانشگاه بوعلی سینا
حسن ختن لو - آزمایشگاه هوش و بینایی ربات، گروه مهندسی کامپیوتر، دانشگاه بوعلی سینا
الهام علیقارداش - آزمایشگاه هوش و بینایی ربات، گروه مهندسی کامپیوتر، دانشگاه بوعلی سینا

خلاصه مقاله:
توصیف تصویر یک زمینه تحقیقاتی بین رشته ای در بینایی ماشین و پردازش زبان طبیعی است. بسیاری از روش های پیشنهاد شده برای تولید توصیف تصویر از چارچوب رمزگذار - رمزگشا پیروی کرده اند. به این ترتیب هر کلمه بر اساس ویژگی های تصویر و کلمات تولید شده قبلی تولید می شود. اخیرا سازوکار توجه، که میتواند با ایجاد نقشه فضایی، مناطق مرتبط تصویر با هر کلمه را برجسته کند، به طور گسترده در تحقیقات استفاده شده است. در این مقاله، ما یک روش جدید را پیشنهاد کرده ایم که چارچوب رمزگذار-رمزگشا را با سازوکار توجه و سازوکار توجه بر توجه ادغام کرده است. بخش رمزگذار مدل شامل چند بخش ResNet، Attention-LSTM، Multi Head Attention و Attention on Attention  است. از ResNet برای استخراج ویژگی های کلی تصویر استفاده شده است. ایه ی Language-LSTMمسئولیت رمزگشایی را بر عهده دارد. سازوکار توجه از شواهد محلی برای افزایش نمایش ویژگی ها و استدلال در تولید توصیفات تصویری بهره برده و سازوکار توجه بر توجه می تواند روابط اشیای داخل تصاویر را به خوبی درک کند. این روش پیشنهادی توانسته است بر روی تصاویر مجموعه های داده Flickr۸k و MSCOCOتوصیف های بهتری را نسبت به روشهای موفق موجود ارائه دهد. همچنین بر اساس معیارهای ارزیابی METEOR، ROUGEعملکرد توصیف تصویر را بهبود داده است.

کلمات کلیدی:
توصیف تصویر, رمزگذار-رمزگشا سازوکار توجه, سازوکار توجه بر توجه, پردازش زبان ها طبیعی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1634208/