توصیف تصاویر مبتنی بر شبکه عمیق رمزگذار-رمزگشا و سازوکار توجه بر توجه

سال انتشار: 1402
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 196

فایل این مقاله در 12 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_JMVIP-10-2_006

تاریخ نمایه سازی: 28 فروردین 1402

چکیده مقاله:

توصیف تصویر یک زمینه تحقیقاتی بین رشته ای در بینایی ماشین و پردازش زبان طبیعی است. بسیاری از روش های پیشنهاد شده برای تولید توصیف تصویر از چارچوب رمزگذار - رمزگشا پیروی کرده اند. به این ترتیب هر کلمه بر اساس ویژگی های تصویر و کلمات تولید شده قبلی تولید می شود. اخیرا سازوکار توجه، که میتواند با ایجاد نقشه فضایی، مناطق مرتبط تصویر با هر کلمه را برجسته کند، به طور گسترده در تحقیقات استفاده شده است. در این مقاله، ما یک روش جدید را پیشنهاد کرده ایم که چارچوب رمزگذار-رمزگشا را با سازوکار توجه و سازوکار توجه بر توجه ادغام کرده است. بخش رمزگذار مدل شامل چند بخش ResNet، Attention-LSTM، Multi Head Attention و Attention on Attention  است. از ResNet برای استخراج ویژگی های کلی تصویر استفاده شده است. ایه ی Language-LSTMمسئولیت رمزگشایی را بر عهده دارد. سازوکار توجه از شواهد محلی برای افزایش نمایش ویژگی ها و استدلال در تولید توصیفات تصویری بهره برده و سازوکار توجه بر توجه می تواند روابط اشیای داخل تصاویر را به خوبی درک کند. این روش پیشنهادی توانسته است بر روی تصاویر مجموعه های داده Flickr۸k و MSCOCOتوصیف های بهتری را نسبت به روشهای موفق موجود ارائه دهد. همچنین بر اساس معیارهای ارزیابی METEOR، ROUGEعملکرد توصیف تصویر را بهبود داده است.

کلیدواژه ها:

توصیف تصویر ، رمزگذار-رمزگشا سازوکار توجه ، سازوکار توجه بر توجه ، پردازش زبان ها طبیعی

نویسندگان

زهرا فامیل ستاری

آزمایشگاه هوش و بینایی ربات، گروه مهندسی کامپیوتر، دانشگاه بوعلی سینا

حسن ختن لو

آزمایشگاه هوش و بینایی ربات، گروه مهندسی کامپیوتر، دانشگاه بوعلی سینا

الهام علیقارداش

آزمایشگاه هوش و بینایی ربات، گروه مهندسی کامپیوتر، دانشگاه بوعلی سینا