بررسی تاثیر کاهش ویژگی بر افزایش نرخ دقت تشخیص صفحات وب هرز

سال انتشار: 1396
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 550

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

SPIS03_014

تاریخ نمایه سازی: 21 اردیبهشت 1397

چکیده مقاله:

وب اسپم روشی غیرقانونی و غیراخلاقی به منظور افزایش رتبه صفحات اینترنتی توسط فریب الگوریتم های موتورهای جستجو است. از آنجا که کیفیت نتایج برای موتورهای جستجو اهمیت بسیاری دارد، ویژگی های زیادی جهت تشخیص صفحات وب هرز پیشنهاد شده است. چالشی که تنوع ویژگیها با آن روبرو است افزایش ابعاد ویژگی و در نتیجه کاهش نرخ تشخیص است. به همین دلیل استفاده از روش های کاهش ویژگی به عنوان یک پیش پردازش آمری اجتناب ناپذیر به نظر می رسد. در این مقاله سعی داریم با بررسی ویژگیهای مستخرج از صفحات وب و انتخاب زیرمجموعهای مناسب از آنها، نرخ تشخیص صفحات وب هرز را افزایش دهیم. بدین منظور ابتدا با استفاده از 11 روش جستجو و هشت معیار ارزیابی، 26 زیر مجموعه مختلف از مجموع کلیه ویژگیها انتخاب شد. سپس با استفاده از الگوریتم Naive Bayes میزان کارایی و موثر بودن هر یک از این زیرمجموعه ها در تشخیص صفحات وب هرز با استفاده از معیاری به نام IBA اندازهگیری شد. نتایج این بررسی که با استفاده از ابزار weka و بر روی مجموعه داده معتبر WEBSPAM-UK2007 صورت گرفت نشان داد که از مجموع 275 ویژگی موجود در این پایگاه داده، 32 ویژگی که با روش جستجوی رتبه بندی و معیار chi square انتخاب شدهاند باعث بهبود عملکرد طبقه بندی و افزایش آن از 0/337 به 0/369 شد.

نویسندگان

علی سلیمانی ایوری

دانشیار، دانشکده مهندسی برق، دانشگاه صنعتی شاهرود، شاهرود،

فایزه اصدقی

دانشجوی دکتری، دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی شاهرود، شاهرود،