استخراج خودکار جملات همتراز انگلیسی-فارسی از متون مقایسهای با بهرهبرداری از اطلاعات نحوی
محل انتشار: پژوهش های زبان شناسی، دوره: 10، شماره: 2
سال انتشار: 1397
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 238
فایل این مقاله در 22 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
JR_JRLU-10-2_002
تاریخ نمایه سازی: 12 بهمن 1399
چکیده مقاله:
پیکرههای موازی همواره از غنیترین منابع در مباحث پردازش زبان طبیعی محسوب میشوند. این نوع پیکرهها شامل متون ترجمهشدۀ دو یا چند زبان هستند که در سطوح مختلف کلمه، عبارت و یا جمله همترازشدهاند. علیرغم کاربرد فراوان این نوع پیکرهها در مطالعات مختلف از جمله پژوهشهای زبانی، ترجمة ماشینی آماری و سامانههای خودکار بازیابی اطلاعات میان زبانی، متأسفانه همواره پژوهشگران با کمبود پیکرههای موازی مواجه بودهاند. در این راستا، در پژوهش حاضر سعی شده است بهمنظور تولید پیکره موازی با بهرهگیری از اطلاعات نحوی، روشی خودکار برای استخراج جملات همترازانگلیسی/فارسی از متون مقایسهای ارائه شود. در این روش، با ساخت بردار ویژگی با بهرهگیری از اطلاعات نحوی جملات، یک مدل همترازی آموزش داده میشود. دقت مدل همترازی،در بهترین حالت، به شکل عملیاتی روی دادههای آزمون (208 عدد جفت جمله) 77% و روی دادههای آموزشی (830 عدد جفت جمله) 7/97 % محاسبه شد. از آنجایی که حجم دادههای طلایی بسیار کوچک بود روش n-fold cross validation در مورد تمام الگوریتمهای آموزش مورد استفاده قرار گرفت. بهمنظور افزایش دقت، از یک الگوریتم جستوجوی شباهت لغوی جملات نیز استفاده شد که دقت را روی دادههای آزمون از 77% به 18/85% افزایش داد. پژوهش حاضر، با بهکارگیری مدل همترازی بهدستآمده، به تولید ابزار همترازی دانشگاه اصفهان منجر شد، که میتواند بهمنظور خودکفایی در تولید پیکرههای موازی مورداستفاده محققین حوزه پردازش زبان فارسی قرار گیرد.
کلیدواژه ها:
نویسندگان
رضوان متولیان
استادیار گروه زبانشناسی دانشگاه اصفهان
امیرحسن منجمی
دانشیار گروه کامپیوتر دانشگاه اصفهان
ابراهیم قدس اللهی
کارشناسی ارشد زبانشناسی رایانشی دانشگاه اصفهان
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :