یک رویکرد فازی در خوشه بندی کلمات برای ساخت مدل های زبانی آماری

سعیده ممتازی; حسین ثامتی; محمد بحرانی; نازیلا حافظی

یک رویکرد فازی در خوشه بندی کلمات برای ساخت مدل های زبانی آماری

محل انتشار: دوازدهمین کنفرانس سالانه انجمن کامپیوتر ایران

سال انتشار: 1385

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 2,253

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/44688

شناسه ملی سند علمی:

ACCSI12_302

تاریخ نمایه سازی: 23 دی 1386

چکیده مقاله:

استفاده از مدل زبانی به صورت n-gram مبتنی بر کلمه در سیستم های بازشناسی گفتار پیوسته بسیار رایج می باشد. به منظور استفاده از این مدل زبانی نیاز به استخراج آن از دادگان متنی غنی می باشد. دادگان های متنی موجود در زبان فارسی آنقدر غنی نیستند که بتوان با کمک آن ها مدل های آماری مبتنی بر کلمات معتبری را استخراج کرد. به همین منظور سعی بر این است که به جای به دست آوردن احتمال دنبا لهم امدن کلمات، احتمال دنبال هم آمدن خوشه هایی که آن کلمات به آن ها متعلق هستند استخراج شود. دراین پژوهش یک ایده فازی برای خوشه بندی کلمات فارسی به منظور ایجاد مدل زبانی مبتنی بر خوشه بررس شده است که دران هر کلمه با درجات عضویت متفاوت به خوشه های مختلف تعلق دارد. الگوریتم خوشه بندی C-mean فازی می باشد. بر همین مبنا پارامترهای مختلفی در این الگوریتم مورد بررسی قرار گرفته و نهایتا بر روی 20000 کلمه پر کاربرد از دادگان متنی زبان فارسی اعمال شده است. مدل زبانی حاصل از آن در سیستم بازشناسی گفتار پیوسته مستقل از گوینده فارسی مورد آزمایش قرار گرفته و در نهایت باعث بهبود در دقت بازشناسی گردیده است.

کلیدواژه ها:

بازشناسی گفتار ، خوشه بندی کلمات ، خوشه بندی فازی ، مدل زبانی

نویسندگان