تشخیص بصری گفتار با استفاده از تحلیل مکان-زمانی گرادیان

سال انتشار: 1399
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 297

فایل این مقاله در 14 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_TJEE-50-3_014

تاریخ نمایه سازی: 4 آذر 1399

چکیده مقاله:

استفاده از اطلاعات بینایی برای تشخیص گفتار، راه­کاری مهم در عدم حضور اطلاعات صوتی است. در این مقاله، روشی برای تشخیص گفتار به کمک اطلاعات بینایی با توصیف تغییرات مکانی-زمانی ناحیه لب ارائه‌شده است. برای توصیف تغییرات از گرادیان تصویر استفاده شد. در روش پیشنهادی، پس از تشخیص ناحیه لب و استخراج نقاط کلیدی، گرادیان در نواحی مربوط به نقاط کلیدی به‌عنوان اطلاعات مکانی مورداستفاده قرار گرفت. برای توصیف نواحی کلیدی لب در طول بیان یک عبارت، نمودار فراوانی 3 بعدی گرادیان­ها و تخمین مسیر تغییرات نواحی کلیدی در طول ویدیو استفاده شدند. تمرکز اصلی این تحقیق، ارائه توصیفی مناسب از گفتار است. به همین منظور، از دسته‌بندهای متفاوتی برای تشخیص گفتار به کمک ویژگی­های استخراج‌شده استفاده شد تا دسته­بند مناسب­تر مورد استفاده قرار گیرد. برای ارزیابی روش پیشنهادی از بانک داده MIRACL-VC1 استفاده شد و نتایج به دست آمده با روش‌های پیشین برای تشخیص گفتار مقایسه شدند. نتایج نشان داد روش پیشنهادی در حدود 11 تا 17 درصد بهبودی داشته است.

کلیدواژه ها:

نویسندگان

علی جعفری شش پلی

پژوهشکده فضای مجازی - دانشگاه شهید بهشتی

علی نادیان قمشه

پژوهشکده فضای مجازی - دانشگاه شهید بهشتی

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • [1]      A. Rekik, A. Ben-Hamadou and W. Mahdi, “An adaptive ...
  • [2]      I. Matthews, T. F. Cootes, J. A. Bangham, S. ...
  • [3]      K. Paleček, “Lipreading using spatiotemporal histogram of oriented gradients.” ...
  • [4]      J. Shin, J. Lee and D. Kim, “Real-time lip ...
  • [5]      G. Sterpu and N. Harte, “Towards lipreading sentences with ...
  • [6]      H. L. Bear, S. J. Cox and R. W. ...
  • [7]      P. Dalka, P. Bratoszewski and A. Czyzewski, “Visual lip ...
  • [8]      X. Ma, L. Yan and Q. Zhong, “Lip feature ...
  • [9]      F. Faridah and B. Achmad, “Lip image feature extraction ...
  • [10]      نصیبه اسدی‌پرور ماسوله و اسدالله شاه‌بهرامی, «تخمین خودکار سن ...
  • [11]      Y. Pei, T.-K. Kim and H. Zha, “Unsupervised random ...
  • [12]      A. Jain and G. Rathna, “Visual speech recognition for ...
  • [13]      L. D. Terissi, M. Parodi, and J. C. Gómez, ...
  • [14]      S. S. Morade and S. Patnaik, “Lip reading by ...
  • [15]      S. S. Morade and S. Patnaik, “Lip reading using ...
  • [16]      سانازکشوری و عبدالله چاله‌چاله, «طبقه‌بندی سبک نقاشی هنرمندان با ...
  • [17]      منیره کوشش و غلامرضا اکبری‌زاده, «الگوریتم حذف Speckle با ...
  • [18]      G. Zhao, M. Barnard and M. Pietikainen, “Lipreading with ...
  • [19]      W. C. Yau, D. K. Kumar and S. P. ...
  • [20]      A. Rekik, A. Ben-Hamadou and W. Mahdi, “A new ...
  • [21]      A. Klaser, M. Marszałek and C. Schmid, “A spatio-temporal ...
  • [22]      P. Viola and M. J. Jones, “Robust real-time face ...
  • [23]      A. Asthana, S. Zafeiriou, S. Cheng and M. Pantic, ...
  • [24]      J. Fan, Local Polynomial Modelling and its Applications: Monographs ...
  • نمایش کامل مراجع