CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

روشی برای طبقه بندی داده ها با استفاده از الگوریتم های داده کاوی داده های بزرگ

عنوان مقاله: روشی برای طبقه بندی داده ها با استفاده از الگوریتم های داده کاوی داده های بزرگ
شناسه ملی مقاله: COMCO05_058
منتشر شده در کنگره ملی تحقیقات بنیادین در مهندسی کامپیوتر و فن اوری اطلاعات در سال 1398
مشخصات نویسندگان مقاله:

حمیدرضا اشرفی اصفهانی

خلاصه مقاله:
طبقه بندی در واقع ارزشیابی ویژگی های مجموعه ای از داده ها و سپس اختصاص دادن آنها به مجموعه ای از گروه های از پیش تعریف شده است. این متداول ترین قابلیت داده کاوی می باشد. مسائل طبقه بندی به شناسایی خصوصیاتی منجر می شوند که مشخص می نمایند هر مورد به کدام گروه تعلق دارد.این الگو هم می تواند برای فهم داده موجود و هم برای پیش بینی اینکه هر نمونه جدید چگونه کار می کند استفاده شود.ماشین بردار پشتیبان SVM1 نسبت به سایر روش های طبقه بندی دارای ویژگی های مهمی مانند پیش زمینه قوی ریاضی و قابلیت و توانایی تعمیم بهتر می باشد. از سوی دیگر، مهم ترین اشکال SVM در مرحله آموزش آن است، که انجام محاسبات آن پرهزینه و به شدت به اندازه مجموعه داده های ورودی وابسته است. در این تحقیق، یک الگوریتم جدید برای سرعت بخشیدن به زمان آموزش SVM ارائه شده است. در این مدل یک مقدار کوچک داده به عنوان نماینده ای از مجموعه داده برای بهبود بخشیدن به زمان آموزش SVM انتخاب می شود. روش جدید با استفاده از یک درخت استقرا، مجموعه داده های آموزشی مربوط به SVM را کاهش می دهد تا یک الگوریتم بسیار سریع و با دقت بالا تولید کند. روش پیشنهادی ازیک فیلتر داده مبتنی بر درخت تصمیم گیری استفاده می کند تا کل داده ها رو اسکن کرده و یک زیر مجموعه کوچک از نقاط داده بدست آورد. نتایج آزمایشات بر روی مجموعه داده های ایجاد شده (مصنوعی) و واقعی نشان می دهد که روش مطرح شده برای مجموعه داده های بزرگ، قابل مقایسه است تا زمانیکه دقت بالایی در طبقه بندی داشته باشد.

کلمات کلیدی:
طبقه بندی، ماشین بردار پشتیبان، داده کاوی، مجموعه داده های بزرگ

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/924574/