واژه یابی گفتار مبتنی بر مدل های مطرح شبکه های عصبی پیچشی به کمک مکانیزم خود توجه

سال انتشار: 1400
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 241

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CSICC27_024

تاریخ نمایه سازی: 3 خرداد 1401

چکیده مقاله:

واژه یابی گفتار به جستجوی کلمات کلیدی هدف در یک آرشیو صوتی اتلاق میشود. در سال های اخیر با پیشرفت تکنولوژی استفاده از سیستم های واژه یاب گفتار در دستگاه های با توان پردازشی کم مانند بلندگوهای هوشمند و تلفن های همراه رواج یافته است. استفاده از واژه یابی گفتار در این دستگاه ها با محدودیت های حافظه ای و پردازشی همراه است. از این رو، لازم است از روش هایی استفاده شود که در کنار دقت مطلوب، تعداد پارامترهای کمی نیز داشته باشد. در سال های اخیر، شرکت گوگل مبتنی بر مدهای مطرح شبکه های عصبی پیچشی مانند موبایلنت، تیسیرزنت، اینسپشن و اکسپشن در حوزه ی واژه یابی گفتار به دقت مطلوبی دست یافته است. در این مقاله سعی شده است با بهره گیری از مکانیزم خودتوجه، دقت واژه یابی گفتار مبتنی بر مدل های مطرح مذکور افزایش یابد. نتایج ارزیابی حاکی از آن است که استفاده از مکانیزم خودتوجه باعث افزایش دقت ۱.۷۲%ای مدل موبایلنت، ۱.۴۱۱%ای مدل اینسپشن، ۱.۴۳%ای مدل اکسپشن و ۱.۸۳%ای مدل تیسیرزنت بدون تاثیر قابل توجه بر تعداد پارامترهای آموزش پذیر مدل های مذکور شده است. همچنین، در قیاس با سایر مدل های مطرح در حوزه ی واژه یابی گفتار، در بهترین حالت، به ازای کاهش حدود ۲ درصد دقت، تعداد پارامترهای آموزش پذیر مدل ۱۰۰۰ برابر کاهش یافته اند

نویسندگان

بهنام اوجاقی

دانشجوی رشته ی مهندسی فناوری اطلاعات (سیستم های چند رسانه ای)، دانشگاه شهید بهشتی، تهران، ایران

شیما طبیبیان

استادیار، پژوهشکده ی فضای مجازی، دانشگاه شهید یهشتی، تهران، ایران