استخراج ویژگی های مقاوم گفتاری زیر باندی با استفاده از شبکه های درهم پیچش چند دقتی
سال انتشار: 1398
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 68
فایل این مقاله در 12 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
JR_TJEE-49-3_037
تاریخ نمایه سازی: 27 تیر 1402
چکیده مقاله:
شبکه های عصبی درهم پیچش (CNN) به عنوان گروهی از شبکه های عصبی عمیق، در سال های اخیر کاربرد فراوانی در مدل سازی آکوستیک و همچنین استخراج ویژگی و مدل سازی توام در بازشناسی گفتار یافته اند. در مقاله حاضر، پیشنهاد می شود تا از CNN برای استخراج ویژگی مقاوم به نویز استفاده شود، درحالی که ورودی CNN طیف سیگنال گفتار نویزی و خروجی هدف آن خروجی های متناظر تمیز از بانک فیلتر مل است. به این ترتیب CNN ویژگی های مقاوم به نویز را از طیف سیگنال گفتار استخراج می نماید. نقطه ضعف CNN در این روش آن است که تنها یک وضوح فرکانسی ثابت را به کار می گیرد. ازاین جهت، در این مقاله استفاده از چند شبکه عصبی درهم پیچش با اندازه های فیلتر درهم پیچش متفاوت، جهت مدل سازی تفاوت وضوح فرکانسی برای استخراج ویژگی از طیف سیگنال گفتار پیشنهاد می شود. روش پیشنهادی را شبکه عصبی درهم پیچش چند دقتی (MRCNN) نام گذاری کرده ایم. آزمایش ها روی دادگان Aurora۲ نشان می دهند که CNN نسبت به شبکه باور عمیق در استخراج ویژگی مقاوم به نویز میانگین دقت بازشناسی را ۲۰ درصد بهبود می دهد. همچنین نتایج نشان می دهند که MRCNN میانگین دقت بازشناسی را نسبت به شبکه عصبی درهم پیچش استاندارد (تک دقتی) ۱ درصد بهبود می دهد.
کلیدواژه ها:
نویسندگان
نوید نادری
دانشکده مهندسی کامپیوتر - دانشگاه صنعتی خواجه نصیرالدین طوسی
بابک ناصر شریف
دانشکده مهندسی کامپیوتر - دانشگاه صنعتی خواجه نصیرالدین طوسی
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :