مقایسه روش های یادگیری ماشین در تحلیل داده های نامتوازن

سال انتشار: 1402
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 43

فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

NEEC07_074

تاریخ نمایه سازی: 3 اردیبهشت 1403

چکیده مقاله:

داده ها نامتوازن، داده هایی هستند که توزیع کلاس ها در مجموعه داده ها یکنواخت نیست. به دلیل این که فراوانی برخی از کلاس ها پایین است ممکن است در روش های طبقه بندی جزء داده های پرت شناخته شود. این مطالعه به بررسی تکنیک های مدیریت داده های نامتوازن و همچنین تاثیر آن بر میزان صحت در طبقه بندی می پردازد. در این مطالعه از چندین الگوریتم یادگیری ماشین نظیر(جنگل تصادفی، درخت تصمیم، ماشین بردار پشتیبان، نزدیکترین همسایه، تقویت گرادیان درخت تصمیم تصادفی) استفاده شده است و برخورد این الگوریتم ها با داده های نامتوازن و متوازن مورد بررسی و آزمایش قرار گرفته است، همچنین لازم به ذکر است داده ها با دو روش بیش نمونه گیری و کم نمونه گیری متوازن شده اند و هر بار بصورت جداگانه به الگوریتم های یادگیری ماشین داده شده است و صحت الگوریتم ها و میزان F۱-Score مورد سنجش قرارگرفته است. علاوه برصحت الگوریتم در مواجه با داده های متوازن و نامتوازن دو روش متوازن کردن داده ها یعنی بیش نمونه گیری و کم نمونه گیری هم مورد ارزیابی قرارگرفته است، در نهایت الگوریتم جنگل تصادفی بالاترین صحت را برای داده های متوازن و نامتوازن بدست آورد، و همچنین متوازن کردن داده ها با روش بیش نمونه گیری تاثیر بالاتری در صحت نهایی الگوریتم را نشان می دهد. نتیجه نهایی این مطالعه را می توانید در قسمت ارزیابی و نتایج مشاهده نمایید.

نویسندگان

جواد نبیان

دانشکده مهندسی کامپیوتر، دانشگاه آزاد اسلامی، واحد نجف آباد، نجف آباد، ایران

حمید رستگاری

استادیار، دانشکده مهندسی کامپیوتر، دانشگاه آزاد اسلامی، واحد نجف آباد، نجف آباد، ایران