CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

الگوریتمی جهت خوشه بندی صفحات وب بر اساس محتوای داده ای

عنوان مقاله: الگوریتمی جهت خوشه بندی صفحات وب بر اساس محتوای داده ای
شناسه ملی مقاله: ACCSI13_241
منتشر شده در سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران در سال 1386
مشخصات نویسندگان مقاله:

روح اله اعتمادی - دانشجوی کارشناسی ارشد دانشگاه آزاد اسلامی واحد بناب
نصراله مقدم چرکری - استادیار دانشکده فنی و مهندسی دانشگاه تربیت مدرس
محمدرضا صالح نمدی - استادیار دانشکده تحصیلات تکمیلی دانشگاه آزاد اسلامی واحد تهران جنوب

خلاصه مقاله:
در این مقاله الگوریتم جدیدی برای خوشه بندی صفحات وب بر اساس محتوای داده ای ارائه شده است. الگوریتم جدید بر اساس عبارات و کلمات موجود در صفحات وب نمایش بیتی انها بصورت برداری و با استفاده از یک معیار تشابه جدید که از ترکیب معیار تشابه Cosing و جاکارد بدست آمده، پیشنهاد شده است. برای ارزیابی کارایی الگوریتم پیشنهادی، صفحاتی با پنج موضوع مهندسی نرم افزار، شبکه های کامپیوتریف معماری کامپیوتر، پردازش موازی و سیستم عامل مورد جستجو قرار گرفته و بعد از آماده سازی بستر داده ای مناسب، الگوریتم ارائه شده بصورت جداگانه با دو معیار تشابه Cosing و معیار تشابه ارائه شده در این مقاله شبیه سازی شده و با استفاده از شاخص Dunn مورد ارزیابی قرار گرفته است. نتایج بدست آمده از شبیه سازی نشان دهنده کارایی بالای الگوریتم پیشنهادی در تفکیک صفحات وب از هم و خوشه بندی مناسب انها می باشد.

کلمات کلیدی:
الگوریتم خوشه بندی ، اعتبار سنجی خوشه ها ، وب کاوی ، معیار تشابه Cosine ، ضریب جاکارد

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/41835/