اعمال زمینه کاری دسته بندی بر روی داده های هویتی و بدهی کارگاهها و کارفرمایان سازمان تامین اجتماعی بااستفاده از تکنیک درخت تصمیم و الگوریتم نیوبیز

سال انتشار: 1387
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,389

فایل این مقاله در 24 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IDMC02_061

تاریخ نمایه سازی: 14 فروردین 1388

چکیده مقاله:

از متداولترین الگوریتمهای دسته بندی ، درخت تصمیم و الگوریتم نیوبیز می باشند که ازاجزای اصلی یادگیری ماشین مدرن می باشند. مقصود اصلی در درخت تصمیم گیری، تقسیم داده ها به صورت بازگشتی به زیرمجموعه هایی است بگونه ای که هر هر زیرمجموعه دربرگیرنده وضعیت همگنی از متغیر هدف می باشد. این الگوریتم پیش بینی هایی را برمبنای روابط بین ستونهای ورودی در یک مجموعه داده انجام می دهد و از مقادیر و وضعیت های این ستونها برای پیش بینی وضعیت یک ستون که به عنوان ستون قابل پیش بینی انتخاب شده است استفاده می نماید. الگوریتم نیوبیز یک الگوریتم دسته بندی است که در مدلسازی پیش بینی استفاده می شود این الگوریتم احتمالات شرطی را بین ستونهای ورودی و قابل پیش بینی محاسبه می نماید و معین می سازد که کدامیک از ستونهای ورودی با احتمال بیشتری نقش تعیین کننده ای در پیش بینی ستون هدف دارند. از آنجایی که پیش بینی یکی از اهداف و وظایف مهم در مدل های دسته کننده می باشد، از این جهت انتخاب ستون پیش بینی کننده، نقش مهمی در ساخت مدل بهینه دارد. محدوده ی داده های مورد استفاده در این تحقیق اطلاعات هویتی و بدهی کارگاهها و کارفرمایان سازمان تامین اجتماعی برای یک اداره کل نمونه می باشد با توجه به این که این اطلاعات دارای مقادیر از دست رفته فراوانی هستند بنابراین ال الگوریتم نیوبیز استفاده شده تامهمترین ستونهای پیش بینی کننده در ابتدا مشخص شوند و سپس با استفاده از الگوریتم درخت تصمیم برمبنای آنتروپی به دسته بندی اطلاعات هویتی کارگاهها و کارفرمایان سازمان تامین اجتماعی پرداخته شده تا با ساخت یک مدل دسته کننده مناسب دو هدف اصلی محقق گردد: 1- دسته بندی اطلاعات و استخراج قوانین تصمیم 2- استفاده از مدل در پیش بینی مقادیر از دست رفته دراین تحقیق ساخت پایگاه اطلاعاتی داده کاوی، پیاده سازی راه حل پروژه داده کاوی ،تنظیم منابع داده مورداستفاده و اجرای الگوریتمهای کاوش با استفاده از پایگاه داده ,SQL Server 2005 انجام گردیده است