بدست آوردن همترازی زمانی بین متن و صوت با استفاده از ترکیب الگوریتم CTC و MarbelNetVAD

سال انتشار: 1402
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 32

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CDI20_020

تاریخ نمایه سازی: 18 فروردین 1403

چکیده مقاله:

در این مقاله روشی جدید با استفاده از ترکیب الگوریتمهای طبقه بندی زمانی ارتباط گرا (CTC) و MarbelNetVAD به منظور برچسب زنی داده های صوتی در حالتی که علاوه بر کم بودن دادها، صوت متناظر با متن هم حالت استاندارد نداشته پیشنهاد شده است. از جمله این نوع دادها می توان به متن و صوت ادعیه مفاتیج الجنان اشاره کرد که تعداد محدودی دعا توسط چند مداح/گوینده با لحنی خاص خوانده شده است. در این روش با استفاده از الگوریتم CTC تخمین اولیه ای همترازی های زمانی، مبتنی بر توزیع احتمالی بدست آمده از یک مدل بازشناسی گفتار wav۲vec۲ بدست می آید. مشکل تخمین اولیه با توجه به نوع دادها این است که ممکن است صوت یک عبارت کوتاه از یک جمله در جمله دیگر تشخیص داده شود. از این رو، در ادامه با ترکیب خروجی CTC و زمانهای بدست آمده از MarbelNetVAD تخمین دقیقی از همترازی زمانی هر عبارت و صوت متناظر با آن در دنباله صوتی بدست می آید. نتایج حاصل از شبیه سازی ها نشان می دهد میانگین و واریانس اختلاف همترازی های زمانی تخمین زده شده توسط روش پیشنهادی در حدود ۰.۶۴s و ۰.۳۷ است، در عین حال که روش CTC به عنوان روش پایه به میانگین و واریانسی در حدود ۰.۸۷s و ۰.۴۷ رسیده است.

نویسندگان

سید مصطفی علویان شهری

مرکز تحقیقات هوش مصنوعی

محمدصادق صفری

مرکز تحقیقات هوش مصنوعی پارت