معرفی یک الگوریتم ریشه یابی و لمیابی مبتنی بر قانون برای زبان فارسی

سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,489

متن کامل این مقاله منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل مقاله (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

DIDRAS01_017

تاریخ نمایه سازی: 26 مرداد 1397

چکیده مقاله:

با توجه به ذات زایا و اشتقاق پذیر زبان فارسی و همپنین نیاز برنامه های کاربردی مختلف مرتبط با پردازش زبان طبیعی و بازیابی اطلاعات، ریشه یابی و لمیابی از مسایل مهم پیش پردازشی در پردازش زبان طبیعی فارسی به شمار می رود. در این راستا در این مقاله یک الگوریتم مناسب برای یافتن خودکار ریشه و لمای کلمات پیشنهاد شده است. این الگوریتم و ابزار پیاده سازی شده بر اساس آن، دارای چند حالت برای ریشه یابی و لمیابی انواع مختلف کلمات است که با روش مبتنی بر قانون و با استفاده از چندین منبع زبانی از جمله فهرستی از افعال زبان فارسی، جمع مکسر، واژگان زایای زبان فارسی و ... طراحی شده است. روال کلی انجام کار به این صورت است که ابتدا بررسی میشود که کلمه باید ریشهیابی شود یا خیر و در صورت لزوم الگوریتم اصلی اعمال میشود. برای لمیابی ابتدا برچسب اجزای کلام برای هر کلمه مشمول ریشه یابی تعیین میگردد و سپس اعمال قوانین صورت می گیرد. این امکان در ریشهیاب قرار داده شده که به تفکیک آرگومان، فعل ها، اسامی و صفت ها به تنهایی ریشه یابی شده و یا هر 3 مورد در متن ریشه یابی شوند. همچنین با توجه به بار پردازشی برچسب زن اجزای کلام و زمانبری روال، یک مد ریشهیابی سبک نیز در برنامه لحاظ شده است که در آن فقط با توجه به شکل ظاهری کلمات، قوانین تعیین شده و ریشه یابی انجام میگیرد. نکته مورد توجه، جامعیت در قوانین و استثنایات مورد پوشش و استفاده از منابع متنی و پیش پردازشی دقیق در الگوریتم پیشنهادی است. نتایج ارزیابی نشان دهنده عملکرد مناسب سیستم پیشنهادی در هر دو حالت ریشهیابی و لمیابی است.

نویسندگان

زینب رحیمی

گروه پردازش صوت زبان طبیعی، پژوهشگاه توسعه فناوری های پیشرفته خواجه نصیرالدین طوسی ، تهران،

یاسر شکفته

گروه پردازش صوت زبان طبیعی، پژوهشگاه توسعه فناوری های پیشرفته خواجه نصیرالدین طوسی ، تهران