تشخیص سرقت علمی اسناد فارسی با رویکرد مبتنی بر گراف

مژگان, ممتاز; مصطفی, صالحی; هادی, ویسی

تشخیص سرقت علمی اسناد فارسی با رویکرد مبتنی بر گراف

عنوان مقاله: تشخیص سرقت علمی اسناد فارسی با رویکرد مبتنی بر گراف
شناسه ملی مقاله: ICIKT08_155
منتشر شده در هشتمین کنفرانس بین المللی فناوری اطلاعات ودانش در سال 1395

مشخصات نویسندگان مقاله:

مژگان ممتاز - دانشجوی کارشناسی ارشد دانشگاه تهران
مصطفی صالحی - استادیار، عضو هیئت علمی دانشگاه تهران
هادی ویسی - استادیار، عضو هیئت علمی دانشگاه تهران

خلاصه مقاله:

در این مقاله روشی نوین برای تشخیص سرقت علمی در اسناد فارسی ارائه شده است. این روش از ساختار گراف و یکی از روشهای تشابه گراف(روش تکرار در مشابهت گره ها) برای یافتن تشابه در دو سند متنی به زبان فارسی استفاده می کند. در این روش ابتدا دوتایی های سند مشکوک بهسرقت علمی را بدست می آوریم و با دوتایی های اسناد ذخیره شده در پایگاه داده مقایسه می کنیم، اگر تعداد دوتایی های مشترک در دو سند از حدآستانه مشخص بیشتر باشد این دو سند برای تشخیص وجود یا عدم وجود سرقت علمی به عنوان ورودی تابع تشخیص سرقت علمی انتخاب می شوند.در این تابع ابتدا سندها به گراف هایی دارای ساختار منظم تبدیل می شوند، سپس به کمک روش تشابه وجود همسایگان مشترک در دو گراف، وجودسرقت علمی یا عدم وجود سرقت علمی، به عنوان خروجی این تابع حاصل می شود. پس از اجرای روش پیشنهادی روی دو مجموعه داده، معیار F ،این روش نسبت به روش مبتنی بر n -گرام نرم افزار مشابه یاب سمیم نور، 20 درصد روی مجموعه داده اول (سرقت علمی از نوع معنایی) و 13 درصدروی مجموعه داده اول (شامل انواع سرقت علمی)، بهبود یافته است. همچنین توانایی این روش برای مقابله با داده نویز بیشتر می باشد.

کلمات کلیدی:

سرقت علمی، گراف، تشابه یابی، متن فارسی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/548814/