یک رویکرد فازی در خوشه بندی کلمات برای ساخت مدل های زبانی آماری

سال انتشار: 1385
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 2,253

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ACCSI12_302

تاریخ نمایه سازی: 23 دی 1386

چکیده مقاله:

استفاده از مدل زبانی به صورت n-gram مبتنی بر کلمه در سیستم های بازشناسی گفتار پیوسته بسیار رایج می باشد. به منظور استفاده از این مدل زبانی نیاز به استخراج آن از دادگان متنی غنی می باشد. دادگان های متنی موجود در زبان فارسی آنقدر غنی نیستند که بتوان با کمک آن ها مدل های آماری مبتنی بر کلمات معتبری را استخراج کرد. به همین منظور سعی بر این است که به جای به دست آوردن احتمال دنبا لهم امدن کلمات، احتمال دنبال هم آمدن خوشه هایی که آن کلمات به آن ها متعلق هستند استخراج شود. دراین پژوهش یک ایده فازی برای خوشه بندی کلمات فارسی به منظور ایجاد مدل زبانی مبتنی بر خوشه بررس شده است که دران هر کلمه با درجات عضویت متفاوت به خوشه های مختلف تعلق دارد. الگوریتم خوشه بندی C-mean فازی می باشد. بر همین مبنا پارامترهای مختلفی در این الگوریتم مورد بررسی قرار گرفته و نهایتا بر روی 20000 کلمه پر کاربرد از دادگان متنی زبان فارسی اعمال شده است. مدل زبانی حاصل از آن در سیستم بازشناسی گفتار پیوسته مستقل از گوینده فارسی مورد آزمایش قرار گرفته و در نهایت باعث بهبود در دقت بازشناسی گردیده است.