معرفی یک الگوریتم ریشه یابی و لمیابی مبتنی بر قانون برای زبان فارسی

زینب رحیمی; یاسر شکفته

معرفی یک الگوریتم ریشه یابی و لمیابی مبتنی بر قانون برای زبان فارسی

محل انتشار: اولین همایش جویشگر بومی

سال انتشار: 1394

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 1,489

متن کامل این مقاله منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل مقاله (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/755003

شناسه ملی سند علمی:

DIDRAS01_017

تاریخ نمایه سازی: 26 مرداد 1397

چکیده مقاله:

با توجه به ذات زایا و اشتقاق پذیر زبان فارسی و همپنین نیاز برنامه های کاربردی مختلف مرتبط با پردازش زبان طبیعی و بازیابی اطلاعات، ریشه یابی و لمیابی از مسایل مهم پیش پردازشی در پردازش زبان طبیعی فارسی به شمار می رود. در این راستا در این مقاله یک الگوریتم مناسب برای یافتن خودکار ریشه و لمای کلمات پیشنهاد شده است. این الگوریتم و ابزار پیاده سازی شده بر اساس آن، دارای چند حالت برای ریشه یابی و لمیابی انواع مختلف کلمات است که با روش مبتنی بر قانون و با استفاده از چندین منبع زبانی از جمله فهرستی از افعال زبان فارسی، جمع مکسر، واژگان زایای زبان فارسی و ... طراحی شده است. روال کلی انجام کار به این صورت است که ابتدا بررسی میشود که کلمه باید ریشهیابی شود یا خیر و در صورت لزوم الگوریتم اصلی اعمال میشود. برای لمیابی ابتدا برچسب اجزای کلام برای هر کلمه مشمول ریشه یابی تعیین میگردد و سپس اعمال قوانین صورت می گیرد. این امکان در ریشهیاب قرار داده شده که به تفکیک آرگومان، فعل ها، اسامی و صفت ها به تنهایی ریشه یابی شده و یا هر 3 مورد در متن ریشه یابی شوند. همچنین با توجه به بار پردازشی برچسب زن اجزای کلام و زمانبری روال، یک مد ریشهیابی سبک نیز در برنامه لحاظ شده است که در آن فقط با توجه به شکل ظاهری کلمات، قوانین تعیین شده و ریشه یابی انجام میگیرد. نکته مورد توجه، جامعیت در قوانین و استثنایات مورد پوشش و استفاده از منابع متنی و پیش پردازشی دقیق در الگوریتم پیشنهادی است. نتایج ارزیابی نشان دهنده عملکرد مناسب سیستم پیشنهادی در هر دو حالت ریشهیابی و لمیابی است.

کلیدواژه ها:

ریشه یابی ، لمیابی ، برچسب اجزای کلام ، واژگان زایا ، پردازش زبان طبیعی

نویسندگان

زینب رحیمی

گروه پردازش صوت زبان طبیعی، پژوهشگاه توسعه فناوری های پیشرفته خواجه نصیرالدین طوسی ، تهران،

یاسر شکفته

گروه پردازش صوت زبان طبیعی، پژوهشگاه توسعه فناوری های پیشرفته خواجه نصیرالدین طوسی ، تهران