CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

ارائه روشی برای محاسبهی میزان مثبت کاذب و منفی کاذب در روشLSH به منظور یافتن اسناد مشابه

عنوان مقاله: ارائه روشی برای محاسبهی میزان مثبت کاذب و منفی کاذب در روشLSH به منظور یافتن اسناد مشابه
شناسه ملی مقاله: TIAU01_174
منتشر شده در همایش ملی پژوهش های کاربردی در علوم و مهندسی در سال 1392
مشخصات نویسندگان مقاله:

حسین ازگومی - رشته کامپیوتر گرایش نرمافزار، دانشجوی کارشناسی ارشد دانشگاه آزاد اسلامی واحد شبستر، مربی آموزشیار دانشگاه علم و فرهنگ رشت
علی مهجور - رشته کامپیوتر گرایش نرمافزار، دکتری تخصصی دانشگاه صنعتی شریف، استادیار دانشگاه آزاد اسلامی

خلاصه مقاله:
یکی از مسائل بنیادی در داده کاوی، بررسی داده ها برای یافتن عناصر مشابه میباشد. برای نمونه در این زمینه میتوان به بررسی مجموعه ای از اسناد مختلف برای پیدا کردن موارد نزدیک به هم و تکراری اشاره نمود. مسئله پیدا کردن اسناد مشابه را میتوان به یک مسئله بر پایه ی مجموعه تبدیل کرد که این کار در قالب روشShinglingانجام می-گیرد. همچنین در ادامه میتوان مجموعه های بزرگ حاصل را به صورتی فشرده نمود که باز هم بتوان تشابه مجموعه-های اصلی را از نسخه های فشرده شده ی آنها، تشخیص داد که این کار در روشMinhashingانجام میشود. درادامه اگر بخواهیم از مقایسه تمامی اسناد با یکدیگر پرهیز کنیم و فقط اسناد با احتمال بالاتر را با یکدیگر مقایسه کنیم باید از روشLSH برای رسیدن به این هدف استفاده نماییم. در این روش امکان ایجاد مثبت کاذب و منفی کاذب وجود دارد. ما در این مقاله رابطه هایی برای محاسبه ی مثبت کاذب و منفی کاذب در این روش ارائه کردیم. به کمک این رابطه ها میتوان پارامترهای روشLSHرا به گونه ای انتخاب نمود که میزان مثبت کاذب و منفی کاذب را کنترل کرد. در واقع هدف اصلی مقاله ایجاد راهکاری برای کاهش مقادیر مثبت کاذب یا منفی کاذب می باشد.

کلمات کلیدی:
دادهکاوی، اسناد مشابه، روشLSH/مثبت کاذب، منفی کاذب

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/290741/