استخراج خودکار جملات هم‌تراز انگلیسی-فارسی از متون مقایسه‌ای با بهره‌برداری از اطلاعات نحوی

سال انتشار: 1397
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 238

فایل این مقاله در 22 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_JRLU-10-2_002

تاریخ نمایه سازی: 12 بهمن 1399

چکیده مقاله:

پیکره‌های موازی همواره از غنی‌ترین منابع در مباحث پردازش زبان طبیعی محسوب می‌شوند.  این نوع پیکره‌ها شامل متون ترجمه‌شدۀ دو یا چند زبان هستند که در سطوح مختلف کلمه، عبارت و یا جمله هم‌ترازشده‌اند. علیرغم کاربرد فراوان این نوع پیکره‌ها در مطالعات مختلف از جمله پژوهش­های زبانی، ترجمة ماشینی آماری و سامانه‌های خودکار بازیابی اطلاعات میان زبانی، متأسفانه همواره پژوهشگران با کمبود پیکره‌های موازی مواجه بوده‌اند. در این راستا، در پژوهش حاضر سعی شده است به‌منظور تولید پیکره موازی با بهره‌گیری از اطلاعات نحوی، روشی خودکار برای استخراج جملات هم‌ترازانگلیسی/فارسی از متون مقایسه‌ای ارائه شود. در این روش، با ساخت بردار ویژگی با بهره‌گیری از اطلاعات نحوی جملات، یک مدل هم‌ترازی آموزش داده می‌شود. دقت مدل هم‌ترازی،در بهترین حالت، به شکل عملیاتی روی داده‌های آزمون (208 عدد جفت جمله) 77% و روی داده‌های آموزشی (830 عدد جفت جمله) 7/97 % محاسبه شد. از آنجایی که حجم داده‌های طلایی بسیار کوچک بود روش n-fold cross validation در مورد تمام الگوریتم‌های آموزش مورد استفاده قرار گرفت. به‌منظور افزایش دقت، از یک الگوریتم جست‌وجوی شباهت لغوی جملات نیز استفاده شد که دقت را روی داده‌های آزمون از 77% به 18/85% افزایش داد. پژوهش حاضر، با به‌کارگیری مدل هم‌ترازی به‌دست‌آمده، به تولید ابزار هم‌ترازی دانشگاه اصفهان منجر شد، که می‌تواند به‌منظور خودکفایی در تولید پیکره‌های موازی مورداستفاده محققین حوزه پردازش زبان فارسی قرار گیرد.

نویسندگان

رضوان متولیان

استادیار گروه زبانشناسی دانشگاه اصفهان

امیرحسن منجمی

دانشیار گروه کامپیوتر دانشگاه اصفهان

ابراهیم قدس اللهی

کارشناسی ارشد زبانشناسی رایانشی دانشگاه اصفهان

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • شناسایی جملات هم ترجمه با استفاده از طبقهبند آنتروپی بیشینه [مقاله کنفرانسی]
  • جکیان طوسی، سید احمد (1391). ارائه رهیافتی جدید برای تولید ...
  • Ansari, E., Sadreddini, M. H., Tabebordbar, A., & Wallace, R. ...
  • Barzilay, R., & Elhadad, N. (2003). Sentence alignment for monolingual ...
  • Brown, K. (2005). Encyclopedia of Language and Linguistics, 14-Volume Set. ...
  • Caseli, H. M. and Nunes, M. G. V. (2003). Evaluation ...
  • Chen, S. F. (1993). Aligning sentences in bilingual corpora using ...
  • Cheon, J., & Youngjoong, K. O. (2017). Automatically Extracting Parallel ...
  • Fattah M.A., Ren F., Kuroiwa S. (2006) Text-Based English-Arabic Sentence ...
  • Gale, W. A., & Church, K. W. (1993). A program ...
  • Georgiou, P., Sethy, P., Shin, J., & Narayanan, S. (2006). ...
  • Halácsy, P., Kornai, A., & Oravecz, C. (2007). HunPos: an ...
  • Han, X., Li, H., & Zhao, T. (2009). Train the ...
  • Jabbari, F. & Ziabary,  M. (2012). Developing an open-domain English-Farsi ...
  • Jurafsky, D., & Martin, J. H. (2009). Speech and Language ...
  • Koehn, P. (2009). Statistical Machine Translation. Cambridge University Press. ...
  • Manning, C. D. & Schütze, H. (1999). Foundations of statistical ...
  • Manning, C., Surdeanu, M., Bauer, J., Finkel, J., Bethard, S., ...
  • McEnery, A., & Xiao, R. (2007). Parallel and comparable corpora:  ...
  • Mitkov, R. (ed.) (2005). The Oxford handbook of computational linguistics. ...
  • Mohammadi, M., & GhasemAghaee, N. (2010). Building bilingual parallel corpora ...
  • Munteanu, D. S., & Marcu, D. (2005). Improving machine translation ...
  • Pilevar M.T., Faili H., Pilevar A.H. (2011) TEP: Tehran English-Persian ...
  • Piperidis, S., Papageorgiou, H., & Boutsis, S. (2000). From sentences ...
  • Rahimi, Z., Taghipour, K., Khadivi, S., & Afhami, N. (2012). ...
  • Rauf, S. A., & Schwenk, H. (2011). Parallel sentence generation ...
  • Seraji, M. (2011). A statistical part-of-speech tagger for Persian. In ...
  • Simard, M., Foster, G. F., & Isabelle, P. (1993). Using ...
  • Ștefănescu, D., Ion, R., & Hunsicker, S. (2012). Hybrid parallel ...
  • Taghipour, K., Afhami, N., Khadivi, S., & Shiry, S. (2010). ...
  • نمایش کامل مراجع