CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

ارزیابی تأثیر منشأ ویژگی ها بر میزان دقت تشخیص وب هرز توسط الگوریتم های طبقه بندی

عنوان مقاله: ارزیابی تأثیر منشأ ویژگی ها بر میزان دقت تشخیص وب هرز توسط الگوریتم های طبقه بندی
شناسه ملی مقاله: IRANWEB02_011
منتشر شده در دومین کنفرانس بین المللی وب پژوهی در سال 1395
مشخصات نویسندگان مقاله:

فریبا مستشارنژاد - دانشجوی کارشناسی ارشد نرم افزار، دانشکده فنی، مهندسی، دانشگاه آزاد اسلامی واحد مشهد
سیدرضا کامل - استادیار گروه نرم افزار، دانشکده فنی، مهندسی، دانشگاه آزاد اسلامی واحد مشهد

خلاصه مقاله:
امروزه با توجه به رشد اطلاعات در وب، موتورهای جستجو به عنوان یک ابزار برای ورود به دنیای وب مورد توجه قرار گرفته اند. آنها فهرستی از نتایج مرتبط با پرسش کاربر را در اختیار او قرار می دهند. از آنجا که اکثر کاربران تنها نتایج صفحه نخست و از آن میان فقط روی سه یا پنج پیوند اولیه را مورد بازدید قرار می دهند، حضور یک صفحه در نتایج بالای موتورهای جستجو به معنای بازدیدکننده بیشتر و نیز درآمد بیشتر است. در این میان وب هرز یک روش غیرقانونی و غیراخلاقی به منظور افزایش رتبه صفحات اینترنتی توسط فریب الگوریتم های موتورهای جستجو می باشد. از آنجا که کیفیت نتایج برای موتورهای جستجو اهمیت بسیاری دارد، روش های مختلفی برای تشخیص صفحات وب هرز ارائه شده است. تاکنون بررسی های فراوانی بر روی مجموعه داده UK-WEBSPAM-2007 صورت گرفته و الگوریتم های طبقه بندی جدید و ترکیبی به نتایج خوبی رسیده اند اما هدف ما بررسی عملکرد الگوریتم های کلاسیک بر روی این مجموعه داده است و اینکه نشان دهیم از اینگونه الگوریتم ها نمی توان به صورت خام برای تشخیص وب هرز استفاده کرد و روشهای ترکیبی جدید گزینه مناسب تری در این خصوص است. در این مقاله قصد داریم تاثیر روش های منتخب طبقه بندی را بر میزان تشخیص این صفحات با در نظر گرفتن چگونگی انتخاب ویژگی ها، بررسی نماییم. بدین منظور از مجموعه داده UK-WEBSPAM-2007 استفاده کرده و 12روش مختلف طبقه بندی را برای تشخیص صفحات وب هرز از دیگر صفحات بر روی حالات مختلف انتخاب ویژگی اعمال کردیم. بهترین نتیجه از اعمال الگوریتم های طبقه بندی بر ترکیب ویژگی های مبتنی بر محتوا و ویژگی های مبتنی بر پیوند بدست آمد.

کلمات کلیدی:
وب هرز، طبقه بندی، ویژگی های مبتنی بر محتوا، ویژگی های مبتنی بر پیوند ، ویژگی های مبتنی بر پیوند تبدیل یافته

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/481655/