CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

ارائه یک شیوه ابتکاری انتخاب نمونه به منظور کاهش داده های حجیم در داده کاوی

عنوان مقاله: ارائه یک شیوه ابتکاری انتخاب نمونه به منظور کاهش داده های حجیم در داده کاوی
شناسه ملی مقاله: IDMC03_020
منتشر شده در سومین کنفرانس داده کاوی در سال 1388
مشخصات نویسندگان مقاله:

سیدمحمدرضا موسوی - بخش مهندسی و علوم کامپیوتر دانشکده مهندسی دانشگاه شیراز
مهسا فضائلی جوان - بخش مهندسی و علوم کامپیوتر دانشکده مهندسی دانشگاه شیراز
سمانه قدرت نما - بخش مهندسی و علوم کامپیوتر دانشکده مهندسی دانشگاه شیراز
محمدهادی صدرالدینی - بخش مهندسی و علوم کامپیوتر دانشکده مهندسی دانشگاه شیراز

خلاصه مقاله:
هرچند حجم بسیار زیاد داده ها یک موضوع اصلی داده کاوی است ولی غالب روشهای ارائه شده نیاز به پیش پردازشهایی در جهت کاهش حجم داده دارند عموما روشهای ابتدایی کاهش نمونه به عنوان قسمتی از فاز پیش پردازش به کار گرفته می شوند تا سرعت مرحله ی یادگیری و ارزیابی با پیچیدگی الگوریتم یادگیری متناسب شود بدین ترتیب تعمیم پذیری و نرخ کاهش داده مسئله ی اصلی در این زمینه است و افزایش دقت در مرحله اصلی یادگیری اهمیت می یابد درحالت کلی دو دسته الگوریتم کاهش فضا وجود دارند این روشها یا توده های مرکزی را حذف کرده و سعی در حفظ مرزها دارند و یا اینکه نمونه مرزی را کم ارزش فرض کرده و برای افزایش تعمیم پذیری داده های نزدیک به مرکز کلاس ها را حفظ می کنند در مورد برخی از الگوریتمهای یادگیری هیچ کدام از این دو مورد مناسب نیستند. حذف انتخای ازنقاط خاصی از فضا توزیع اماری داده ها را تغییر داده و با تغییر مبنای فاصله فاز یادگیری را دچار مشکل می کند در روش ارائه شده دراین مقاله یک الگوریتم ابتکاری برای تنک کردن داده ها مطرح و نتایج ارزیابی آن برروی داده های کشف نفوذ اورده شده است.

کلمات کلیدی:
کاهش داده، یادگیری برپایه ی نمونه اولیه، یادگیری برپایه ی نماینده، تعمیم پذیری، نزدیک ترین همسایه، کشف نفوذ، هرس کردن، نمونه های غلط

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/108892/