واکاوی و استخراج داده در وب

سال انتشار: 1401
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 52

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

UTCONF07_139

تاریخ نمایه سازی: 22 مهر 1402

چکیده مقاله:

وب، در سال های اخیر، روند رو به رشدی را طی کرده است و از هزاران صفحه به بیشتر از دو میلیارد صفحه در زمان کنونی رسیده است. با گسترش روزافزون تعداد صفحات وب، موتورهای جستجوی وب باید اطلاعات مرتبط با عبارت مورد جستجو را در اختیار کاربر قرار دهند. موتورهای جستجوی وب همانند بیشتر ابزارهای مخصوص جستجو به WebCrawler ها برای بدست آوردن مجموعه ی بزرگی از صفحات، برای رتبه بندی و فهرست گذاری تکیه می کنند. از آنجاییکه Web Crawler ممکن است در طول چند هفته یا ماه به طور دوره ای، به صفحات جهت به روزرسانی جداول خود مراجعه کند، بکارگیری روش قدرتمند، انعطاف پذیر و مدیریت پذیر برای این کار ضروری به نظر می رسد. بعلاوه کارایی I/O، منابع شبکه و محدودیتهای سیستم عامل نیز باید در نظر گرفته شود.

نویسندگان

میثم عقیلی

دانشگاه علوم و تحقیقات