CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

تشخیص خودکار جنسیت نویسنده نظرات نوشته شده به زبان فارسی

عنوان مقاله: تشخیص خودکار جنسیت نویسنده نظرات نوشته شده به زبان فارسی
شناسه ملی مقاله: UTCONF03_128
منتشر شده در سومین همایش ملی دانش و فناوری مهندسی برق، کامپیوتر و مکانیک ایران در سال 1398
مشخصات نویسندگان مقاله:

سیامک حکمتیان زاده پور - کارشناسی ارشد مهندسی فناوری اطلاعات دانشگاه قم
امیر جلالی بیدگلی - استادیار دانشگاه قم

خلاصه مقاله:
استفاده زیاد از اینترنت در بین مردم باعث تبادل حجم وسیعی از نظرات در فضای مجازی شده است. در اغلب شبکه های اینترنتی کاربران به صورت گمنام نظرات خود را ثبت می کنند. حال آنکاه فهمیدن ویژگی نویسنده مانند سن و جنسیت می تواند در تحلیل بهتر نظر نویسنده و یا شناسایی نظر اقشار مختلف جامعه به تفکیک کاربردهای بسیاری داشته باشد. در این پژوهش مسئله شناسایی خودکار جنسیت از روی متن نظرات نوشتهشده به زبان فارسی در سایت مایکت بررسی شده است. روش های کیسه کلمات و n- گرام، بررسی شدند. برای دسته بندی نظرات از الگوریتم های بیز ساده، شبکه های عصبی پرسپترون چندلایه استفاده شد. نشان دادیماستفاده از علائم نگارشی در کنار رویکرد ترکیبی n- گرام سب افزایش صحت جهت پیش بینی نویسنده می شود. بالاترین صحت به دست آمده برای تشتیص جنسیت استفاده از علائم نگارشی به همراه رویکرد ترکیبییک گرام، دوگرام و سه گرام و الگوریتم شبکه عصبی به میزان 85.7 درصد می باشد.

کلمات کلیدی:
تشتیص جنسیت، کیسه کلمات، n- گرام، بیز ساده، شبکه عصبی پرسپترون چندلایه

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/925633/