ارائه روشی برای یافتن اسناد مشابه بر پایهی فیلتر مبتنی بر تکرار

م قاسمی ماه سایه; ع مهجور

ارائه روشی برای یافتن اسناد مشابه بر پایهی فیلتر مبتنی بر تکرار

محل انتشار: همایش ملی پژوهش های کاربردی در علوم و مهندسی

سال انتشار: 1392

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 614

متن کامل این مقاله منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل مقاله (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/290897

شناسه ملی سند علمی:

TIAU01_345

تاریخ نمایه سازی: 14 شهریور 1393

چکیده مقاله:

مباحث گوناگونی در زمینهی دادهکاوی از مجموعه دادههای عظیم مطرح است که یکی از آنها یافتن عناصرمشابه میباشد. موارد مختلفی را در این مسئله میتوان به عنوان عناصر در نظر گرفت. یکی از موارد مرتبط دراین زمینه، بررسی برای یافتن اسناد مشابه میباشد. مسئله پیدا کردن اسناد مشابه را میتوان به یک مسئله برپایهی مجموعه تبدیل کرد که این کار در قالب روشShinglingانجام میگیرد. همچنین در ادامه میتوان به کمک اعضای این مجموعهها از بررسی تمامی جفت اسناد برای یافتن اسناد مشابه خودداری کرد و فقط اسنادی را که با احتمال بیشتری مشابه هستند بررسی نمود. از جمله میتوان به روشهای فیلتر مبتنی بر طول وشاخصگذاری بر اساس پیشوند اشاره کرد که به این صورت عمل میکنند. در این روشها تکرار عناصر در اسناد در نظر گرفته نمیشود در حالی که میتواند در نتیجهی تشابه تأثیرگذار باشد. ما در این مقاله روشی برای یافتن اسناد مشابه با توجه به تکرار هر عضو در هر سند ارائه کردیم. در واقع هدف اصلی مقاله ایجاد راهکاری برای کاهش هر چه بیشتر تعداد مقایسهی جفت اسناد برای یافتن اسناد مشابه میباشد

کلیدواژه ها:

دادهکاوی/Shingling/فیلتر مبتنی بر طول ، شاخصگذاری پیشوند ، فیلتر مبتنی بر تکرار

نویسندگان

م قاسمی ماه سایه

رشته کامپیوتر گرایش نرمافزار، دانشجوی کارشناسی ارشد دانشگاه آزاد اسلامی واحد شبستر

ع مهجور

رشته کامپیوتر گرایش نرمافزار، دکتری تخصصی دانشگاه صنعتی شریف، استادیار دانشگاه آزاد اسلامی