طبقه بندی محتوایی صفحات وب با استفاده از راهکارهای خوشه بندی

سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 896

فایل این مقاله در 12 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IRCEM01_102

تاریخ نمایه سازی: 25 آذر 1395

چکیده مقاله:

از آنجا که حجم اطلاعات بر روی وب روز به روز در حال افزایش است. سازماندهی این اطلاعات به منظور دسترسی سریع کاربران به محتوای مورد نظر یک نیاز ضروری می باشد. با توجه به رشد سریع وب، فراهم کردن روشی خودکار برای تقسیم بندی و طبقه بندی صفحات وب یک نیاز ضروری می باشد. در این مقاله چندین روش خوشه بندی صفحات وب مورد بررسی قرار گرفته است. این روش ها شامل خوشه بندی اسناد براساس ترکیب تگ های HTML، روش یادگیری ماشین K نزدیکترین همسایه، روش خوشه بندی بر اساس الگوریتم K-Means و خوشه بندی براساس پیوندهای خروجی است. سپس با استفاده از تمامی این الگوریتم ها دسته بندی صفحات وب مطابق با گروه بندی های از پیش تعیین شده انجام شده و پس از قرارگیری صفحات در گروه ها و دسته های مربوط به خود میزان درستی کار هر کدام از این الگوریتم ها را از طریق روش های ارزیابی خوشه بندی سنجیده شده و با سایر الگوریتم ها مقایسه شده و درصد موفقیت هریک را در گروه های مختلف محاسبه کرده و در نهایت به معرفی موفق ترین گروه در این آزمایش پرداخته شد. این طبقه بندی بوسیله ۱۰۰ صفحه وب متعلق به ۴ دسته آموزشی، پزشکی، خبری، ورزشی است.

کلیدواژه ها:

الگوریتم های خوشه بندی ، ارزیابی خوشه بندی ، بازیابی اطلاعات ، طبقه بندی صفحات وب

نویسندگان

معصومه رجب زاده شهرستانی

دانشجوی کارشناسی ارشد مهندسی کامپیوتر- نرم افزار، موسسه آموزش عالی دیلمان- لاهیجان

فاطمه احمدی آبکناری

استادیار- گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه پیام نور رشت

غلامحسین اکباتانی فرد

استادیار- گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه آزاد اسلامی، واحد لاهیجان

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :