شناسایی اسپم در تویت های فارسی: رویکرد مبتنی بر داده کاوی

سال انتشار: 1400
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 389

فایل این مقاله در 10 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICTI04_053

تاریخ نمایه سازی: 20 مهر 1400

چکیده مقاله:

شبکه اجتماعی تویتر، دارای تعداد زیادی کاربر فعال است که نه تنها به عنوان پلتفرمی به منظور تولید و گسترش فراگیر آخرین اخبار و اطلاعات شناخته می شود. با توجه به دسترسی گسترده به این شبکه اجتماعی آنلاین، در سال های اخیر وجود اخبار و پیام های ناخواسته یا تبلیغات تحت عنوان اسپم یا هرزنامه نیز افزایش یافته است. به منظور مقابله با اسپم در شبکه های اجتماعی و به خصوص توییتر تحقیقات متعددی با تمرکز بر توییت انگلیسی انجام شده است. در این مقاله، با تاکید بر توییت های فارسی، با استفاده از رویکرد داده کاوی بخشی از توییت های به زبان فارسی جمع آوری شده، پس از برچسب گذاری اولیه به صورت دستی توسط کاربر انسانی، استخراج ویژگی، انتخاب ویژگی، تحلیل ویژگی، مدلسازی و ارزیابی توسط چند الگوریتم یادگیری ماشین بر روی این دادگان انجام شده است. از دستاوردهای اصلی این پژوهش می توان به ارائه یک مجموعه داده استاندارد برای شناسایی اسپ در توییت های فارسی و تحلیل ویژگی های اثرگذار نام برد.

نویسندگان

نیلوفر عرب

کارشناسی، گروه مهندسی کامپیوتر، دانشگاه علم و فرهنگ

علیرضا رضوانیان

استادیار، کارشناسی، گروه مهندسی کامپیوتر، دانشگاه علم و فرهنگ