CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

ارائه روشی برای یافتن اسناد مشابه بر پایهی فیلتر مبتنی بر تکرار

عنوان مقاله: ارائه روشی برای یافتن اسناد مشابه بر پایهی فیلتر مبتنی بر تکرار
شناسه ملی مقاله: TIAU01_345
منتشر شده در همایش ملی پژوهش های کاربردی در علوم و مهندسی در سال 1392
مشخصات نویسندگان مقاله:

م قاسمی ماه سایه - رشته کامپیوتر گرایش نرمافزار، دانشجوی کارشناسی ارشد دانشگاه آزاد اسلامی واحد شبستر
ع مهجور - رشته کامپیوتر گرایش نرمافزار، دکتری تخصصی دانشگاه صنعتی شریف، استادیار دانشگاه آزاد اسلامی

خلاصه مقاله:
مباحث گوناگونی در زمینهی دادهکاوی از مجموعه دادههای عظیم مطرح است که یکی از آنها یافتن عناصرمشابه میباشد. موارد مختلفی را در این مسئله میتوان به عنوان عناصر در نظر گرفت. یکی از موارد مرتبط دراین زمینه، بررسی برای یافتن اسناد مشابه میباشد. مسئله پیدا کردن اسناد مشابه را میتوان به یک مسئله برپایهی مجموعه تبدیل کرد که این کار در قالب روشShinglingانجام میگیرد. همچنین در ادامه میتوان به کمک اعضای این مجموعهها از بررسی تمامی جفت اسناد برای یافتن اسناد مشابه خودداری کرد و فقط اسنادی را که با احتمال بیشتری مشابه هستند بررسی نمود. از جمله میتوان به روشهای فیلتر مبتنی بر طول وشاخصگذاری بر اساس پیشوند اشاره کرد که به این صورت عمل میکنند. در این روشها تکرار عناصر در اسناد در نظر گرفته نمیشود در حالی که میتواند در نتیجهی تشابه تأثیرگذار باشد. ما در این مقاله روشی برای یافتن اسناد مشابه با توجه به تکرار هر عضو در هر سند ارائه کردیم. در واقع هدف اصلی مقاله ایجاد راهکاری برای کاهش هر چه بیشتر تعداد مقایسهی جفت اسناد برای یافتن اسناد مشابه میباشد

کلمات کلیدی:
دادهکاوی/Shingling/فیلتر مبتنی بر طول، شاخصگذاری پیشوند، فیلتر مبتنی بر تکرار

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/290897/