طبقه بندی صفحات وب براساس ترکیبی از تکنیک های یادگیری ماشین

سال انتشار: 1392
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,391

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CEIT01_203

تاریخ نمایه سازی: 9 تیر 1393

چکیده مقاله:

دسته بندی صفحات وب، در واقع پروسه اختصاص یک صفحه وب به یک طبقه مناسب و از پیش تعیین شده می باشد. دسته بندی صفحات وب در مقایسه با دسته بندی استاندارد متنی، به چند دلیل متفاوت است . دسته بندی سنتی متنی، معمولاً روی اسناد ساخت یافته که با سبک ثابتی نوشته شده اند ( همانند مقالات، کتابه ها و ...) انجام می شود، درحالیکه محتوای وب شامل ویژگی های فراوانی می باشد که ابتدا می بایست پیش پردازش مناسب را جهت تولید ویژگی ها انجام داد و سپس ویژگی های متنی مناسب را انتخاب کرد و به دسته بندی صفحات یا اسناد الکترونیکی با استفاده از محتوای متنی آنها پرداخت. در این مقاله با ارائه یک سیستم ترکیبی سلسله مراتبی Hierarchical Hybrid System ، ابتدا با روش Ngram ویژگی های مناسب تولید گردیده و با استفاده از ترکیب دو روش انتخاب ویژگی فیلتر افزایش اطلاعات Information Gain و رپر DMNB Wrapper DMNB ویژگی مناسب انتخاب شده اند و در نهایت توسط الگوریتم های KNN,SVM و DMNB طبقه بندی صفحات را انجام داده ایم. نتایج بدست آمده نشان می دهد که سیستم ترکیبی پیشنهادی می تواند به نسبت بهتر عمل کند و بهره وری و کارایی بیشتری در مقایسه با سایر روش ها داشته باشد.

کلیدواژه ها:

طبقه بندی وب ، Web Classification ، سیستم ترکیبی سلسله مراتبی ، انتخاب ویژپی Feature Selection ، رپر Wrapper ، فیلتر Filter ، درخت تصمیم KNN.C4.5 و DMNB

نویسندگان

محمدرضا گلاب

گروه کامپیوتر، دانشگاه آزاد اسلامی واحد دزفول، دزفول، ایران

علیرضا عصاره

دانشیار گروه کامپیوتر، دانشگاه شهید چمران ، اهواز، ایران

بیتا شادگار

استادیار گروه کامپیوتر، دانشگاه شهید چمران، اهواز، ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • IEEE/WI C/ACM International Conference on Web IEEE Computer Society, 2004. ...
  • Witten, I. H., Frank, E. Data Mining: Practical Machine Learning ...
  • Shibu, Sini, Aishwarya Vishwakarma, and Niket Bhargava, "A combination approach ...
  • Cavnar, W.B, "Using an N-Gram based document representation _ ector ...
  • Wei, C.P., Yang, C.C., Lin, C.M, "A Latent Semantic Indexing-based ...
  • He, X., Cai, D. Liu, H., Ma, W.Y, "Locality Preserving ...
  • Harish, B. S., D. S. Guru, and S. Manjunath. "Classification ...
  • Quinlan, J. Ross, "Induction of decision trees", Machine learning 1, ...
  • Yang, Yiming, and Jan O. Pedersen, "A comparative study on ...
  • How, Bong Chih, and Ku lathuramaiyer Narayanan, "An empirical study ...
  • Guo, Gongde, Hui Wang, David Bell, Yaxin Bi, and Kieran ...
  • Rafi, Muhammad, and Mohammad Shahid Shaikh, "A comparison of SVM ...
  • Chua, Stephanie, Frans Coenen, Grant Malcolm, Matias Fernando, and Garcia ...
  • Mengle, Saket SR, and Nazli Goharian, "Ambiguity measure feature -selection ...
  • R. Kohavi and G. H. John, "Wrappers for Feature Subset ...
  • Shang, Wenqian, Houkuan Huang, Haibin Zhu, Yongmin Lin, Youli Qu, ...
  • Mouratis, T., and S. Kotsiantis, "Increasing the Accuracy of Discriminative ...
  • Cortes, Corinna, and Vladimir Vapnik, "Support- vector networks", Machine learning ...
  • http ://kdd .ic S .uci _ edu/d atab ases/20news groups/20news ...
  • نمایش کامل مراجع