CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

ارائه روشی برای یافتن اسناد مشابه براساس انتخاب بازه ای برای طول زیررشته ها در روش Shingling

عنوان مقاله: ارائه روشی برای یافتن اسناد مشابه براساس انتخاب بازه ای برای طول زیررشته ها در روش Shingling
شناسه ملی مقاله: EME02_493
منتشر شده در دومین کنفرانس بین المللی مدیریت، کارآفرینی و توسعه اقتصادی در سال 1392
مشخصات نویسندگان مقاله:

حسین ازگومی - کارشناسی ارشد رشته کامپیوتر گرایش نرم افزار، دانشگاه آزاد اسلامی واحد شبستر
معصومه قاسمی ماه سایه - کارشناسی ارشد رشته کامپیوتر گرایش نرم افزار، دانشگاه آزاد اسلامی واحد شبستر

خلاصه مقاله:
یکی از مباحث مطرح در کاوش از مجموعه داده های عظیم، یافتن اسناد مشابه در مجموعه داده ای از اسناد میباشد. روشهای مختلفی برای یافتن اسناد مشابه موجود است. یکی از این روشها، روش Shingling میباشد. در روش Shingling هر سند به یک مجموعه تبدیل میشود. برای این منظور تمام زیررشته های موجود در هر سند انتخاب شده و درون یک مجموعه قرار میگیرند. در این روش طول زیررشته ها یک مقدار ثابت انتخاب میشود. سپس برای یافتن مقدار تشابه دو سند، تشابه جاکارد مجموعه های مربوط به آنها محاسبه میشود. یکی از مشکلاتی که در روش Shingling رایج میباشد، انتخاب مقداری مناسب برای طول زیررشته ها است. طول زیررشته ها معمولاً بر اساس طول اسناد انتخاب میشوند. در این مقاله روشی را برای یافتن اسناد مشابه بر اساس روش Shingling ارائه کردیم که به جای انتخاب یک مقدار برای طول زیررشته ها، از یک بازه استفاده میکند. یعنی برای رسیدن به دقت بالاتر، مقدار تشابه برای چندین طول زیررشته ها محاسبه میشود. در واقع هدف اصلی مقاله ارائه روشی برای تخمین دقیقتر تشابه بین دو سند است.

کلمات کلیدی:
اسناد مشابه، روش Shingling، طول زیررشته، تشابه جاکارد، بازهی زیررشته

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/285643/