مدل سازی موضوعی صفحات وب با استفاده از ابزار مالت و رو شهای یادگیری با نظارت

سال انتشار: 1402
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 59

فایل این مقاله در 12 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CSCONFERENCE01_105

تاریخ نمایه سازی: 22 آذر 1402

چکیده مقاله:

هدف از این مقاله پیشنهاد یک الگوریتم کارامد برای تشخیص موضوع اسناد وب می باشد. بدست آوردن موضوع اسناد وب امروزهیک چالس اساسی در حوزه بازیابی اطلاعات است. بسیاری از کارهای انجام شده از روش های tf-idf, co-occurrence,ontology و n-gram با تمرکز بر روی تمامی متن یک وب سایت، موضوع یک سند را استخراج می کنند. در این مقاله، ابتداتوسط یک خزنده تعاملی، ساختار html، اسناد وب آنالیز شده تا ویژگی های پر کاربرد در طراحی صفحات وب استخراج شوند. در گامبعدی ۱۵۰۰ صفحه وب به کاربران اینترنتی نشان داده می شود و آن ها در یک فرآیند یادگیری با نظارت فعال برای هر صفحه وبنشان داده شده یک موضوع اختصاص می دهند. سپس با استفاده از روش های مدل سازی موضوعی و بررسی انواع الگوریتم هایدسته بندی Decision Tree, C۴۵, Naive Bayes و Max Entropy بهترین کلاسیفایر موضوعی ساخته می شود. درنهایت این کلاسیفایر عملیات تشخیص موضوع را برای صفحات وب جدید انجام می دهد. نتایج دقت قابل قبولی نشان می دهد را ازرویکرد پیشنهاد شده نشان می دهد.

نویسندگان

کاظم تقندیکی

عضو هیات علمی گروه مهندسی کامپیوتر، دانشگاه فنی و حرفه ای، تهران ، ایران

محمد محمدی

عضو هیات علمی گروه مهندسی کامپیوتر، دانشگاه فنی و حرفه ای، تهران ، ایران