مقدمه ای بر شناسایی گوینده مبتنی بر ضرایب MFCC و مدل سازی آماری

محمود, حسینی; مرتضی, زاهدی

مقدمه ای بر شناسایی گوینده مبتنی بر ضرایب MFCC و مدل سازی آماری

عنوان مقاله: مقدمه ای بر شناسایی گوینده مبتنی بر ضرایب MFCC و مدل سازی آماری
شناسه ملی مقاله: FNCEITPNU01_091
منتشر شده در اولین همایش ملی مهندسی کامپیوتر و فناوری اطلاعات دانشگاه پیام نور در سال 1393

مشخصات نویسندگان مقاله:

محمود حسینی - دانشجوی کارشناسی ارشد، دانشگاه صنعتی شاهرود
مرتضی زاهدی - عضو هیات علمی، دانشگاه صنعتی شاهرود

خلاصه مقاله:

به کارگیری گفتار گویندگان برای شناسایی و تصدیق هویت افراد به دلیل سادگی استفاده از آن کاربرد فراوان دارد. هر سیستم شناسایی گوینده از دو فاز یادگیری و آزمایش تشکیل شده است. در بخش یادگیری، ویژگی های گفتار که مهم ترین آن ها ضرایب کپسترال اند با استفاده از روش MFCC استخراج می شوند. سپس با کمک روش های آماری مانند مدل پنهان مارکوف، مدل مخلوط گوسی و یا ماشین بردار پشتیبان، مدلی منحصر به فرد از صدای هر گوینده ایجاد، سطح آستانه ای برای مدل تعیین و در پایگاه داده ذخیره می گردد. در فاز آزمایش، گفتار نمونه، امتیاز بندی شده و با سطح آستانه هر کدام از مدل های ذخیره شده در فاز یادگیری مقایسه می شود. در صورتی که امتیاز گفتار نمونه از سطح آستانه آن مدل تجاوز نکند، گفتار به مدل مذکور تعلق خواهد داشت. به منظور تمایز بیشتر مدل ها از یکدیگر و در نتیجه تشخیص بهتر، از روش های هنجار سازی استفاده می شود. در این مقاله تلاش شده است تا با ترکیب هم زمان دو و یا چند روش هنجار سازی به بازدهی بالا تر جهت تشخیص هویت گوینده رسید.

کلمات کلیدی:

تشخیص هویت گوینده، ضرایب کپسترال، ضرایب MFCC، سطح آستانه، روش های هنجار سازی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/337443/