CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

بررسی روش های کشف و مقایسه الگوهای پرس و جو های مکرر در اسناد XML

عنوان مقاله: بررسی روش های کشف و مقایسه الگوهای پرس و جو های مکرر در اسناد XML
شناسه ملی مقاله: MAYCOMP01_063
منتشر شده در اولین همایش چشم انداز تکنولوژی کامپیوتر و شبکه در ۲۰۳۰ در سال 1394
مشخصات نویسندگان مقاله:

فاطمه دورانی - دانشجوی کارشناسی ارشد گروه کامپیوتر، واحد میبد، دانشگاه های آزاد اسلامی، میبد ، ایران
محمدجواد کارگر - عضو هیأت علمی گروه کامپیوتر، واحد میبد، دانشگاه های آزاد اسلامی ، میبد، ایران

خلاصه مقاله:
کشف الگوهای پنهان و ارزشمند از درون حجم وسیعی از داده های خام، اخیراً توجه بسیاری از محققان را به خود جلب کرده است. اغلب روش های کاوش قوانین انجمنی در مرحله اول کار خود کلیه اقلام پرتکرار را از بین تمام اقلام موجود در داده ها جستجو می کنند که این امر نیازمند خواندن مکرر کل داده ها از حافظه است. بنیان اصلی پردازش و بهینه سازی الگوهای مکرر پرس و جوهای XML بر مبنای ساختار درختی آن بنا شده است و این بدان معنی است که ساختار و محتوا در این سندها در کنار یکدیگر هستند. با افزایش چشمگیر اسناد XML اهمیت پردازش بهبود پرس و جوهای XML بیشتر به چشم می خورد. الگوریتم های زیادی برای کشف قوانین انجمنی تاکنون ارائه شده اند. بخش عمده و نسبتا زمانگیر در اکثر الگوریتم های موجود از جمله سه روش مد نظر در این پروژه (TOP-K , FP-Growth , Apriori)، جستجوی اقلام پر تکرار است. برای بهینه سازی این فرایند الگوریتم های پیشنهاد شده رویکردهای متفاوتی دارند. تلاش بسیاری از روشها بر کاهش تعداد دفعات مراجعه به حافظه جهت خواندن داده ها است .برای این منظور، بعضی روش ها با یافتن راه های مستقیم جهت به دست آوردن پشتیبانی بعضی از اقلام، از مراجعات بیهوده به حافظه خودداری می کنند. از کاراترین روشهای موجود، روش های Apriori و FP-Growth و TOP-K می باشد. در این مقاله سعی بر این شده تا با بررسی سه روش کشف الگوهای پرسوجوی مکرر، آنها را از لحاظ سه معیار اصلی سرعت، حافظه و زمان اجرا بررسی نماییم و یک مقایسه کلی درباره الگوهای پرسوجوی مکرر مطرح شده در اسناد XML داشته باشیم. نتایج حاصل از تحقیق نشان می دهد که الگوریتم Top-k در اکثر موارد بسته به پیمایش نسبت به دو الگوریتم دیگر از لحاظ معیارهای ذکر شده عملکرد بهتری دارد.

کلمات کلیدی:
اسناد XML، قواعد انجمنی ،الگوهای پرتکرار

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/554275/