روشی توزیع پذیر جهت یافتن عبارات معادل بین زبانی در بستر داده های حجیم

سال انتشار: 1397
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 692

فایل این مقاله در 5 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

DCBDP04_013

تاریخ نمایه سازی: 24 شهریور 1397

چکیده مقاله:

متون منتشر شده در اینترنت به زبان های مختلف نوشته شده اند. در حال حاضر توانایی سیستم های بازیابی اطلاعات برای جستجوی اطلاعات بینزبانی ضعیف است. یکی از بزرگترین موانع این کار، عدم تطبیق لفظ به لفظ کلمات در زبان های مختلف است. به عبارت دیگر ممکن است دو عبارت در دو زبان مختلف هممعنی باشند ولی هیچ شباهت تحت اللفظی ای نداشته باشند. در این مقاله با کمک پیکره های یک زبانه و دوزبانه، عبارات معادل در زبان های انگلیسی و فارسی شناسایی می شوند. روش ارایه شده قابلیت توزیع پذیری دارد. با افزایش حجم پیکره ها بدون افت کارایی کیفیت خروجی بهبود خواهد یافت. آزمایش و بررسی اصطلاحات معادل در داده هایی از متون فارسی، انگلیسی و ترکیبی که هر متن معادل آن در زبان دیگر نیز وجود دارد، بیانگر دقت مناسب این روش است. این روش به زبان اسکالا پیاده سازی شده و قابل تعمیم به زبان های دیگر است.

نویسندگان

سید علی هاشمی

دانشجوی دکتری، دانشکده مهندسی برق و کامپیوتر، دانشگاه یزد، یزد

محمدعلی زارع چاهوکی

استادیار، دانشکده مهندسی برق و کامپیوتر، دانشگاه یزد، یزد

محمد قاسم زاده

دانشیار، دانشکده مهندسی برق و کامپیوتر، دانشگاه یزد، یزد

امین نظارات

استادیار، دانشکده مهندسی کامپیوتر، دانشگاه آزاد اسلامی یزد، یزد