انتخاب ویژگی برای شناسایی نویسنده در متون کوتاه برخط فارسی

سال انتشار: 1400
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 30

فایل این مقاله در 23 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_AICTI-13-47_004

تاریخ نمایه سازی: 29 آذر 1402

چکیده مقاله:

رشد فزایندهی استفاده از رسانه های اجتماعی و ارتباطات برخط به منظور بیان نظرات، تبادل عقاید و همچنین گسترش استفادهی کاربران فارسی زبان از این ابزارها باعث افزایش متون فارسی در وب شده است. این رشد چشمگیر در کنار سوءاستفادههای ناشی از ناشناس بودن نویسندهی نوشتهها نیاز به سامانهی خودکار شناسایی نویسنده در این زبان را بیش از پیش آشکار می سازد. هدف از این پژوهش، بررسی ویژگی های موثر در شناسایی نویسندگان نظرات فارسی تولید شده توسط خریداران گوشی و همچنین ارزیابی روش های نظارتی و غیرنظارتی می باشد. عواملی که در این پژوهش بررسی میشود شامل ویژگی های لغوی، نگارشی، معنایی، ساختاری، دستوری، مختص متن و مختص شبکه های اجتماعی است. پس از استخراج ویژگی های مذکور، انتخاب ویژگی های برتر توسط چهار الگوریتم همبستگی ویژگی، نسبت بهره، OneR و تحلیل اجزای اصلی آزمایش میشود. در ادامه از الگوریتمهای K-means، EM و خوشهبندی مبتنی بر چگالی برای خوشه بندی و الگوریتمهای شبکهی بیز، جنگل تصادفی و Bagging برای دستهبندی استفاده خواهد شد. ارزیابی الگوریتم های فوق بر روی نظرات فارسی مربوط به خریداران گوشی های سامسونگ نشان میدهد که بهترین تشخیص در بین الگوریتمهای خوشهبندی با دقت ۱۶/۵۹% مربوط به الگوریتم EM روی ۱۵ ویژگی برتر انتخابی توسطOneR است درحالی که الگوریتم جنگل تصادفی به همراه نسبت بهره برای ۹۰ ویژگی با دقت ۵۷/۷۹% بهترین کارایی را در بین الگوریتمهای دستهبندی دارد. همچنین مقایسه ی ویژگی ها نشان داد که ویژگی های نگارشی بیشترین تاثیر را در شناسایی نویسندهی متون کوتاه داشته و پس از آن به ترتیب ویژگی های لغوی ، مختص متن، مختص شبکه های اجتماعی، ساختاری، دستوری و معنایی قرار گرفتند.

کلیدواژه ها:

تحلیل متن ، تحلیل سبک ، استخراج ویژگی ، انتخاب ویژگی و شناسایی نویسنده.

نویسندگان

امید روزمند

استادیار، گروه مهندسی کامپیوتر، پردیس شهرضا، دانشگاه اصفهان