واژه یابی گفتار مبتنی بر مدل های مطرح شبکه های عصبی پیچشی به کمک مکانیزم خود توجه

بهنام, اوجاقی; شیما, طبیبیان

واژه یابی گفتار مبتنی بر مدل های مطرح شبکه های عصبی پیچشی به کمک مکانیزم خود توجه

عنوان مقاله: واژه یابی گفتار مبتنی بر مدل های مطرح شبکه های عصبی پیچشی به کمک مکانیزم خود توجه
شناسه ملی مقاله: CSICC27_024
منتشر شده در بیست و هفتمین کنفرانس بین المللی کامپیوتر انجمن کامپیوتر ایران در سال 1400

مشخصات نویسندگان مقاله:

بهنام اوجاقی - دانشجوی رشته ی مهندسی فناوری اطلاعات (سیستم های چند رسانه ای)، دانشگاه شهید بهشتی، تهران، ایران
شیما طبیبیان - استادیار، پژوهشکده ی فضای مجازی، دانشگاه شهید یهشتی، تهران، ایران

خلاصه مقاله:

واژه یابی گفتار به جستجوی کلمات کلیدی هدف در یک آرشیو صوتی اتلاق میشود. در سال های اخیر با پیشرفت تکنولوژی استفاده از سیستم های واژه یاب گفتار در دستگاه های با توان پردازشی کم مانند بلندگوهای هوشمند و تلفن های همراه رواج یافته است. استفاده از واژه یابی گفتار در این دستگاه ها با محدودیت های حافظه ای و پردازشی همراه است. از این رو، لازم است از روش هایی استفاده شود که در کنار دقت مطلوب، تعداد پارامترهای کمی نیز داشته باشد. در سال های اخیر، شرکت گوگل مبتنی بر مدهای مطرح شبکه های عصبی پیچشی مانند موبایلنت، تیسیرزنت، اینسپشن و اکسپشن در حوزه ی واژه یابی گفتار به دقت مطلوبی دست یافته است. در این مقاله سعی شده است با بهره گیری از مکانیزم خودتوجه، دقت واژه یابی گفتار مبتنی بر مدل های مطرح مذکور افزایش یابد. نتایج ارزیابی حاکی از آن است که استفاده از مکانیزم خودتوجه باعث افزایش دقت ۱.۷۲%ای مدل موبایلنت، ۱.۴۱۱%ای مدل اینسپشن، ۱.۴۳%ای مدل اکسپشن و ۱.۸۳%ای مدل تیسیرزنت بدون تاثیر قابل توجه بر تعداد پارامترهای آموزش پذیر مدل های مذکور شده است. همچنین، در قیاس با سایر مدل های مطرح در حوزه ی واژه یابی گفتار، در بهترین حالت، به ازای کاهش حدود ۲ درصد دقت، تعداد پارامترهای آموزش پذیر مدل ۱۰۰۰ برابر کاهش یافته اند

کلمات کلیدی:

مکانیزم خود توجه۱، واژه یابی گفتار، موبایل نت ۲، تی سی رزنت ۳، اینسپشن ۴، اکسپشن

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1452930/