ارائه روشی برای یافتن اسناد مشابه بر پایهی فیلتر مبتنی بر تکرار

سال انتشار: 1392
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 612

متن کامل این مقاله منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل مقاله (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

TIAU01_345

تاریخ نمایه سازی: 14 شهریور 1393

چکیده مقاله:

مباحث گوناگونی در زمینهی دادهکاوی از مجموعه دادههای عظیم مطرح است که یکی از آنها یافتن عناصرمشابه میباشد. موارد مختلفی را در این مسئله میتوان به عنوان عناصر در نظر گرفت. یکی از موارد مرتبط دراین زمینه، بررسی برای یافتن اسناد مشابه میباشد. مسئله پیدا کردن اسناد مشابه را میتوان به یک مسئله برپایهی مجموعه تبدیل کرد که این کار در قالب روشShinglingانجام میگیرد. همچنین در ادامه میتوان به کمک اعضای این مجموعهها از بررسی تمامی جفت اسناد برای یافتن اسناد مشابه خودداری کرد و فقط اسنادی را که با احتمال بیشتری مشابه هستند بررسی نمود. از جمله میتوان به روشهای فیلتر مبتنی بر طول وشاخصگذاری بر اساس پیشوند اشاره کرد که به این صورت عمل میکنند. در این روشها تکرار عناصر در اسناد در نظر گرفته نمیشود در حالی که میتواند در نتیجهی تشابه تأثیرگذار باشد. ما در این مقاله روشی برای یافتن اسناد مشابه با توجه به تکرار هر عضو در هر سند ارائه کردیم. در واقع هدف اصلی مقاله ایجاد راهکاری برای کاهش هر چه بیشتر تعداد مقایسهی جفت اسناد برای یافتن اسناد مشابه میباشد

کلیدواژه ها:

دادهکاوی/Shingling/فیلتر مبتنی بر طول ، شاخصگذاری پیشوند ، فیلتر مبتنی بر تکرار

نویسندگان

م قاسمی ماه سایه

رشته کامپیوتر گرایش نرمافزار، دانشجوی کارشناسی ارشد دانشگاه آزاد اسلامی واحد شبستر

ع مهجور

رشته کامپیوتر گرایش نرمافزار، دکتری تخصصی دانشگاه صنعتی شریف، استادیار دانشگاه آزاد اسلامی