بازشناسی مقاوم گفتار با استفاده از شبکه های عصبی حافظه کوتاه مدت ماندگار و ویژگی های گلوگاه

سال انتشار: 1398
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 75

فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_TJEE-49-3_032

تاریخ نمایه سازی: 27 تیر 1402

چکیده مقاله:

شبکه های عصبی عمیق در سال های اخیر به طرز گسترده ای در سیستم های بازشناسی گفتار مورداستفاده قرارگرفته اند. بااین وجود، مقاوم سازی این مدل ها در حضور نویز محیط کمتر موردبررسی قرارگرفته است. در این مقاله دو راهکار برای مقاوم سازی مدل های شبکه حافظه کوتاه مدت ماندگار نسبت به نویز جمع پذیر محیطی موردبررسی قرارگرفته است. راهکار اول افزایش مقاومت مدل های شبکه حافظه کوتاه مدت ماندگار نسبت به حضور نویز است که با توجه به خصوصیت این شبکه ها در یادگیری رفتار بلندمدت نویز ارائه می شود. بدین منظور پیشنهاد می شود از گفتار نویزی برای آموزش مدل ها استفاده شود تا به صورت آگاه به نویز آموزش ببینند. نتایج روی مجموعه داده نویزی شده TIMIT نشان می دهد که اگر مدل ها به جای گفتار تمیز با گفتار نویزی آموزش ببینند، دقت بازشناسی تا ۱۸ درصد بهبود خواهد یافت. راهکار دوم کاهش تاثیر نویز بر ویژگی های استخراج شده با استفاده از شبکه خود رمزگذار کاهنده نویز و استفاده از ویژگی های گلوگاه به منظور فشرده سازی بردار ویژگی و بازنمایی سطح بالاتر ویژگی های ورودی است. این راهکار باعث می شود مقاومت ویژگی ها نسبت به نویز بیشتر شده و درنتیجه دقت سیستم بازشناسی پیشنهادشده در راهکار اول، در حضور نویز ۴ درصد افزایش یابد.

کلیدواژه ها:

بازشناسی گفتار ، مقاومت نسبت به نویز ، داده های چند شرطی ، شبکه خود رمزگذار ، شبکه حافظه کوتاه مدت ماندگار

نویسندگان

امین معاون جولا

دانشکده مهندسی کامپیوتر - دانشگاه علم و صنعت

احمد اکبری

دانشکده مهندسی کامپیوتر - دانشگاه علم و صنعت

بابک ناصر شریف

دانشکده مهندسی کامپیوتر - دانشگاه صنعتی خواجه نصیرالدین طوسی

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • A. Graves and N. Jaitly, “Towards End-To-End Speech Recognition with ...
  • Y. Miao, M. Gowayyed and F. Metze, “EESEN: End-to-End Speech ...
  • D. Amodei and a. et, “Deep Speech ۲: End-to-End Speech ...
  • Y. Bengio, P. Lamblin, D. Popovici and H. Larochelle, “Greedy ...
  • H. Larochelle, Y. Bengio, J. Louradour and P. Lamblin, “Exploring ...
  • A. Graves, Supervised Sequence Labelling with Recurrent Neural Networks, Springer, ...
  • A. Zeyer, P. Doetsch, P. Voigtlaender, R. Schlüter and H. ...
  • مجتبی حاجی آبادی, عباس ابراهیمی مقدم و حسین خوش بین, ...
  • مسعود گراوانچی زاده و ساناز قائمی سردرودی, «بهبود کیفیت گفتار ...
  • M. Seltzer, D. Yu and Y. Wang, “An investigation of ...
  • D. Yu, L. Deng, J. Droppo, J. Wu, Y. Gong ...
  • S. Sun, B. Zhang, L. Xie and Y. Zhang, “An ...
  • V. Mitra, H. Franco, R. M. Stern, J. v. Hout, ...
  • A. M. C. Martinez, S. H. Mallidi and B. T. ...
  • D. Yu and M. Seltzer, “Improved Bottleneck Features Using Pretrained ...
  • T. N. Sainath, B. Kingsbury and B. Ramabhadran, “Auto-encoder bottleneck ...
  • J. e. a. Gehring, “Extracting deep bottleneck features using stacked ...
  • A. Senior, H. Sak, F. de Chaumont Quitry, T. N. ...
  • H. Sak, A. W. Senior and F. Beaufays, “Long short-term ...
  • A. L. Maas, Z. Xie, D. Jurafsky and A. Y. ...
  • D. Yu, K. Yao and Y. Zhang, “The Computational Network ...
  • D. Dorde, T. Grozdic, S. T. Jovicic and M. Subotic, ...
  • R. Fr, P. Matjka, F. Grzl, O. Plchot, K. Vesel ...
  • R. Martin, “Noise Power Spectral Density Estimation Based on Optimal ...
  • زیرنویس ها ...
  • نمایش کامل مراجع