بررسی تاثیر کاهش ویژگی بر افزایش نرخ دقت تشخیص صفحات وب هرز
سال انتشار: 1396
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 550
فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
SPIS03_014
تاریخ نمایه سازی: 21 اردیبهشت 1397
چکیده مقاله:
وب اسپم روشی غیرقانونی و غیراخلاقی به منظور افزایش رتبه صفحات اینترنتی توسط فریب الگوریتم های موتورهای جستجو است. از آنجا که کیفیت نتایج برای موتورهای جستجو اهمیت بسیاری دارد، ویژگی های زیادی جهت تشخیص صفحات وب هرز پیشنهاد شده است. چالشی که تنوع ویژگیها با آن روبرو است افزایش ابعاد ویژگی و در نتیجه کاهش نرخ تشخیص است. به همین دلیل استفاده از روش های کاهش ویژگی به عنوان یک پیش پردازش آمری اجتناب ناپذیر به نظر می رسد. در این مقاله سعی داریم با بررسی ویژگیهای مستخرج از صفحات وب و انتخاب زیرمجموعهای مناسب از آنها، نرخ تشخیص صفحات وب هرز را افزایش دهیم. بدین منظور ابتدا با استفاده از 11 روش جستجو و هشت معیار ارزیابی، 26 زیر مجموعه مختلف از مجموع کلیه ویژگیها انتخاب شد. سپس با استفاده از الگوریتم Naive Bayes میزان کارایی و موثر بودن هر یک از این زیرمجموعه ها در تشخیص صفحات وب هرز با استفاده از معیاری به نام IBA اندازهگیری شد. نتایج این بررسی که با استفاده از ابزار weka و بر روی مجموعه داده معتبر WEBSPAM-UK2007 صورت گرفت نشان داد که از مجموع 275 ویژگی موجود در این پایگاه داده، 32 ویژگی که با روش جستجوی رتبه بندی و معیار chi square انتخاب شدهاند باعث بهبود عملکرد طبقه بندی و افزایش آن از 0/337 به 0/369 شد.
کلیدواژه ها:
نویسندگان
علی سلیمانی ایوری
دانشیار، دانشکده مهندسی برق، دانشگاه صنعتی شاهرود، شاهرود،
فایزه اصدقی
دانشجوی دکتری، دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی شاهرود، شاهرود،