بررسی روش های استخراج داده وب مبتنی بر آنتالوژی

سیدمحمد جوادی مقدم; حوریه شیرازی

بررسی روش های استخراج داده وب مبتنی بر آنتالوژی

محل انتشار: کنفرانس ملی سیستم های هوشمند و محاسبات سریع

سال انتشار: 1399

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 666

فایل این مقاله در 14 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/1152578

شناسه ملی سند علمی:

ECECON01_001

تاریخ نمایه سازی: 25 بهمن 1399

چکیده مقاله:

استخراج داده های وب یکی از مهم ترین مسائلی است که می تواند مورد مطالعه با استفاده از ابزارهای مختلف علمی قرار گیرد که در محدوده گسترده ای از برنامه های کاربردی است. بسیاری از روش هایی که برای استخراج داده از وب سایت طراحی شده است برای حل مشکلات خاص و در حوزه های موقت به کار می رود. سیستم های استخراج داده های وب دسته وسیعی از نرم افزارهای برنامه های کاربردی برای استخراج داده های وب از منابع وب هستند. یک سیستم استخراج داده های وب معمولا در تعامل با یک منبع وب و عصاره داده های ذخیره شده می باشد. به عنوان مثال اگر منبع یک صفحه وب HTML باشد محتوای خارج شده می تواند از علائم در صفحه و همچنین متن کاملی از خود صفحه باشد و در نهایت داده های استخراج شده ممکن است پس از پردازش به ساختار فرمت مناسب تبدیل و ذخیره شود. یک روش مهم برای استخراج Text Mining استفاده از استخراج اطلاعات به زبان طبیعی است. استخراج اطلاعات IE تقطیر داده های ساختار یافته و یا دانش از متن بدون ساختار یافته که به وسیله شناسایی منابع برای موجودیت نام و روابط بین این موجودیت ها بدست می آید.همچنین ما در این بحث وارد یکی از شاخه های متن کاوی که هستی شناسی نام دارد می شویم به طوری که عناصر تشکیل دهنده هستی شناسی جمعیت خواص و روابط غیر طبقه بندی را شامل می شود. در این تحقیق انواع تکنیک ها و روش های استخراج داده وب و همچنین مزایا و معایب هرکدام بررسی می شوند.

کلیدواژه ها:

استخراج داده ، وب کاوی ، الگوریتم تطبیق درخت ، پوشش وب ، هستی شناسی

نویسندگان

حوریه شیرازی

دانشجوی دکتری دانشگاه آزاد اسلامی واحد فردوس ایران

سیدمحمد جوادی مقدم

عضو هیئت علمی گروه کامپیوتر دانشگاه بزرگمهر قائنات قاین ایران