دسته بندی سوالات Stack Overflow با استفاده از بازنمایی های سنتی و جدید

حسین, پاکروح; حسین, عباسی مهر

دسته بندی سوالات Stack Overflow با استفاده از بازنمایی های سنتی و جدید

عنوان مقاله: دسته بندی سوالات Stack Overflow با استفاده از بازنمایی های سنتی و جدید
شناسه ملی مقاله: DCBDP06_026
منتشر شده در ششمین کنفرانس ملی محاسبات توزیعی و پردازش داده های بزرگ در سال 1399

مشخصات نویسندگان مقاله:

حسین پاکروح - دانشکده فناوری اطلاعات و مهندسی کامپیوتر، دانشگاه شهید مدنی آذربایجان، تبریز
حسین عباسی مهر - دانشکده فناوری اطلاعات و مهندسی کامپیوتر، دانشگاه شهید مدنی آذربایجان، تبریز

خلاصه مقاله:

برچسب گذاری خودکار سوالات زبان های برنامه نویسی نقش مهمی در مرتبط کردن سوالات با پاسخ دهندگان در یک پلتفرم پرسش و پاسخ دارد. دسته بندی سوالات با استفاده از متن سوال و با بكارگيری روش های یادگيری ماشين یكی از روش های مورد استفاده در این زمينه است. با توجه به اینكه در دسته بندی سوالات بازنمایی متن نقش ویژه ای در عملكرد دسته بند دارد، در این مقاله بازنماییسنتی مبتنی بر مدل n-grams به همراه فرکانس کلمه -معكوس فرکانس سند با بازنمایی جدید مبتنی بر روش های یادگيری عميق مورد مقایسه قرار گرفت. پس از انجام پيش پردازش و ساخت بردارهای ورودی، دسته بندهای بيز ساده، رگراسيون لجستيک، ماشين بردار پشتيبان و K نزدیكترین همسایه روی مجموعه ای از سوالات سایت Stack Overflow اعمال گردید. همچنين یک تكنيکمبتنی بر حافظه طولانی کوتا ه-مدت پياده سازی گردید. نتایج روی داده های مورد استفاده در این مقاله نشان می دهد که مدل های مبتنی بر بازنمایی سنتی دقت بهتری نسبت به بازنمایی مبتنی بر یادگيری عميق دارند.

کلمات کلیدی:

دسته بندی سوالات، یادگیری ماشین، بازنمایی مبتنی بر مدل n-grams ، بازنمایی مبتنی بر یادگیری عمیق

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1167813/