CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

ارائه روشی جدید برای تشخیص جملات متشابه با استفاده از روش های یادگیری ماشین

عنوان مقاله: ارائه روشی جدید برای تشخیص جملات متشابه با استفاده از روش های یادگیری ماشین
شناسه ملی مقاله: CONFSKU01_004
منتشر شده در کنفرانس ملی آخرین دستاوردهای مهندسی داده و دانش و محاسبات نرم در سال 1400
مشخصات نویسندگان مقاله:

سعید جعفری ولدانی - دانشجوی کارشناسی ارشد، دانشگاه شهرکرد
هادی خسروی فارسانی - استادیار، دانشگاه شهرکرد
تقی جاودانی گندمانی - استادیار، دانشگاه شهرکرد

خلاصه مقاله:
با افزایش روزافزون وسایل ارتباطی اعم از کامپیوترهای شخصی، دستگاههای کتاب خوان، موبایل ها و دیگر وسایل ارتباطی، حجم زیادی از اطلاعات در حال تولید و انتشار می باشد. این حجم از داده ها، در مواقعی مانند کشف سرقت علمی، بازیابی جملات متشابه به یک درخواست، پاسخ به پرسش های کاربر، اعتبارسنجی مقالات نسبت به دیگر مقالات و دیگر موارد مربوط به بازیابی اطلاعات، نیاز به مقایسه و تشخیص میزان شباهت دارند. بر همین اساس، در این پژوهش سعی شده روشی ارائه شود که قادر به تشخیص شباهت جملات یک جفت سند با دقت بالا در زبان فارسی باشد.روش پیشنهادی این پژوهش شامل سه زیر مرحله است. در مرحله اول جفت سند منبع و مشکوک به واحدهای کوچک تری به نام جمله، سپس به واحدهای کوچک تر از جمله به نام کلمه تقسیم بندی شدند. پس از آن کلمات تهیه شده به منظور شباهت یابی برداری به بردار کلمات تبدیل شدند. در مرحله دوم، یک خزنده با اندازه ثابت بر روی دو متن منبع و مشکوک حرکت کرده و هرکجا شباهت یکسان بین دو قسمت (به اندازه طول خزنده) از متن وجود داشت، هر قسمت از دو متن را از دو طرف گسترش داده و اقدام به بررسی شباهت بین آنها می کند. در مرحله سوم قسمت های استخراج شده که شباهت بیشتر از حد آستانه داشته و در نزدیکی یکدیگر قرار داشته باشند، به منظور یکپارچه سازی و کاهش قسمت های پراکنده با یکدیگر ادغام شده و نتیجه گیری نهایی انجام شد. مشاهده شد که مدل پیشنهادی به دلیل ترکیب روش های شباهت یابی، توانست بالاترین امتیاز را بر روی دو مجموعه داده معرفی شده کسب کند.

کلمات کلیدی:
تشخیص سرقت علمی، محاسبه شباهت جملات، یادگیری ماشین، پردازش متن، بازیابی اطلاعات متشابه

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1307660/