ارائه یک روش مبتنی بر مدل زبانی برای واحدسازی پیکره فارسی
محل انتشار: دوفصلنامه زبان و زبان شناسی، دوره: 14، شماره: 27
سال انتشار: 1397
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 121
فایل این مقاله در 30 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
JR_LSI-14-27_002
تاریخ نمایه سازی: 17 دی 1401
چکیده مقاله:
متن نگاشته شده فارسی دو مشکل ساده ولی مهم دارد. مشکل اول واژه های چندواحدی هستند که از اتصال یک واژه به واژه های بعدی حاصل می شوند. مشکل دیگر واحدهای چندواژه ای هستند که از جداشدگی واژه هایی که با هم یک واحد واژگانی تشکیل می دهند حاصل میگردند. این مقاله الگوریتمی را معرفی می کند که بتواند به طور خودکار این دو مشکل را در متن نوشتاری فارسی بکاهد و یک متن معیار را به دست آورد. الگوریتم معرفی شده سه مرحله دارد. در مرحله اول، واژه های چندواحدی از هم جدا می شوند و واحدهای چندواژه ای به یکدیگر متصل می شوند. برای این مرحله، یک الگوریتم پایه مبتنی بر مدل زبانی معرفی شده است که کار تفکیک واژه های چندواحدی به واژه های مستقل را انجام می دهد. این الگوریتم باتوجه به چالش های پیش آمده بهبود می یابد تا کارایی آن افزایش یابد. همچنین این مرحله از یک تحلیل گر صرفی برای بررسی وند تصریفی و اشتقاقی و روش انطباق فهرست واژه برای رفع مشکل واحدهای چندواژه ای استفاده می کند. در مرحله دوم، از روش انطباق برای بررسی چندواژگی افعال استفاده می شود. مرحله سوم تکرار مرحله اول است تا مشکلات جدید ایجادشده در متن بعداز اجرای مرحله دوم مرتفع شود. الگوریتم معرفی شده برای واحدسازی داده زبانی پایگاه داده های زبان فارسی استفاده شده است. با استفاده از این الگوریتم، ۷۲.۴۰ درصد خطای نگارشی واژه های داده آزمون تصحیح شدهاست. دقت این تصحیح در داده آزمون ۹۷.۸۰ درصد و خطای نگارشی ایجادشده توسط این الگوریتم در داده آزمون ۰.۰۲ درصد است.
کلیدواژه ها:
نویسندگان
مسعود قیومی
پژوهشگاه علوم انسانی و مطالعات فرهنگی
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :