ارائه یک روش مبتنی بر مدل زبانی برای واحدسازی پیکره فارسی

سال انتشار: 1397
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 121

فایل این مقاله در 30 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_LSI-14-27_002

تاریخ نمایه سازی: 17 دی 1401

چکیده مقاله:

متن نگاشته شده فارسی دو مشکل ساده ولی مهم دارد. مشکل اول واژه های چندواحدی هستند که از اتصال یک واژه به واژه های بعدی حاصل می شوند. مشکل دیگر واحدهای چندواژه ای هستند که از جداشدگی واژه هایی که با هم یک واحد واژگانی تشکیل می دهند حاصل می‎گردند. این مقاله الگوریتمی را معرفی می کند که بتواند به طور خودکار این دو مشکل را در متن نوشتاری فارسی بکاهد و یک متن معیار را به دست آورد. الگوریتم معرفی شده سه مرحله دارد. در مرحله اول، واژه های چندواحدی از هم جدا می شوند و واحدهای چندواژه ای به یکدیگر متصل می شوند. برای این مرحله، یک الگوریتم پایه مبتنی بر مدل زبانی معرفی شده است که کار تفکیک واژه های چندواحدی به واژه های مستقل را انجام می دهد. این الگوریتم باتوجه به چالش های پیش آمده بهبود می یابد تا کارایی آن افزایش یابد. همچنین این مرحله از یک تحلیل گر صرفی برای بررسی وند تصریفی و اشتقاقی و روش انطباق فهرست واژه برای رفع مشکل واحدهای چندواژه ای استفاده می کند. در مرحله دوم، از روش انطباق برای بررسی چندواژگی افعال استفاده می شود. مرحله سوم تکرار مرحله اول است تا مشکلات جدید ایجادشده در متن بعداز اجرای مرحله دوم مرتفع شود. الگوریتم معرفی شده برای واحدسازی داده زبانی پایگاه داده های زبان فارسی استفاده شده است. با استفاده از این الگوریتم، ۷۲.۴۰ درصد خطای نگارشی واژه های داده آزمون تصحیح شده‎است. دقت این تصحیح در داده آزمون ۹۷.۸۰ درصد و خطای نگارشی ایجادشده توسط این الگوریتم در داده آزمون ۰.۰۲ درصد است.

کلیدواژه ها:

پردازش زبان طبیعی ، واحدسازی داده ، مدل سازی زبانی آماری ، زبان شناسی پیکره ای

نویسندگان

مسعود قیومی

پژوهشگاه علوم انسانی و مطالعات فرهنگی

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • احمدیان، ا. ح. و ه. فیلی (۱۳۹۵) «روش مبتنی بر ...
  • بی جن خان، م. (۱۳۸۳). «نقش پیکره زبانی در نوشتن ...
  • شریفی آتشگاه، م. (۱۳۸۸). تولید نیمه خودکار درخت بانک گروه های ...
  • طباطبایی سیفی، ش. و ا. صراف (۱۳۹۶) «سازه ساز: واژه ...
  • عاصی، م. (۱۳۸۴). «پایگاه داده زبان فارسی در اینترنت». پژوهشگران. ش۲، ...
  • عاصی، م. و س. قندی (۱۳۹۴). «پایگاه داده های زبان ...
  • فرهنگستان زبان و ادب فارسی (۱۳۸۹). دستور خط فارسی. تهران: فرهنگستان ...
  • قیومی، م. (۱۳۹۶). «مسئله چندواژگی در پردازش نحو رایانشی زبان ...
  • تنوع نگارشی در زبان فارسی و تهیه خودکار دادگان املایی از پیکره زبانی مبتنی بر وب [مقاله کنفرانسی]
  • کاشفی، ا. (۱۳۹۰). «ویراستیار: مطالعه تطبیقی یک فعالیت پردازشی متن ...
  • وزیرنژاد، ب.، ف. سلطانزاده، م. مهدوی، و م. مرادی (۱۳۹۴). ...
  • Adda, G., M. Adda-Decker, J.Luc Gauvain, & L. Lamel (۱۹۹۷). ...
  • Bijankhan, M., J. Sheykhzadegan, M. Bahrani, & M. Ghayoomi (۲۰۱۱). ...
  • Faili, H., N. Ehsan, M. Montazery, & M. T. Pilehvar ...
  • Ghayoomi, M. & S. Momtazi (۲۰۰۹). “Challenges in developing Persian ...
  • Ghayoomi, M., S. Momtazi, & M. Bijankhan (۲۰۱۰). “A study ...
  • Levenshtein, V. I. (۱۹۹۶). “Binary codes capable of correcting deletions, ...
  • Li, C., & Y. Liu (۲۰۱۴). “Improving text normalization via ...
  • Scannell, K. (۲۰۱۴). “Statistical models for text normalization and machine ...
  • Sarabi, Z., H. Mahyar, & M. Farhoodi (۲۰۱۳). “ParsiPardaz: Persian ...
  • Seraji, M., B. Megyesi, & J. Nivre (۲۰۱۲). “A basic ...
  • Shamsfard, M. (۲۰۱۱). “Challenges and open problems in Persian text ...
  • Shamsfard, M., H. Jafari, & M. Ilbeygi (۲۰۱۰). “STeP-۱: A ...
  • SharifiAtashgah, M., & M. Bijankhan (۲۰۰۹). “Corpus-based analysis for multi-token ...
  • Yang, Y., & J. Eisenstein (۲۰۱۳). “A log-linear model for ...
  • نمایش کامل مراجع