CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

ارایه روشی مبتنی بر تحلیل آماری منبع واژگانی وردنت و محتوا به منظور تحلیل عقاید در اسناد لاتین

عنوان مقاله: ارایه روشی مبتنی بر تحلیل آماری منبع واژگانی وردنت و محتوا به منظور تحلیل عقاید در اسناد لاتین
شناسه ملی مقاله: CITI02_015
منتشر شده در دومین کنفرانس ملی مباحث نوین در کامپیوتر و فناوری اطلاعات در سال 1397
مشخصات نویسندگان مقاله:

مرجان عبدیزدان - گروه کامپیوتر، واحد ماهشهر، دانشگاه آزاد اسلامی، ماهشهر، ایران

خلاصه مقاله:
از جمله اهداف تحلیل احساس، طبقه بندی متون با ریزدانگی مختلف در کلاس های است که بیانگر سطح مثبت یا منفی بودن نظر است. مهمترین مشکلی که در تحلیل احساس با آن مواجه هستیم مهندسی خصیصه ها می باشد؛ چرا که پیچیدگی زمانی و دقت عملیات طبقه بندی را تحت تاثیر قرار میدهد. در این پژوهش از دانش مبتنی بر محتوا و همچنین دانش آماری سنتیوردنت، برای کاهش ابعاد خصیصه ها استفاده کرده ایم. نمایش یک بعدی ارایه شده برای سنتی وردنت این امکان را ایجاد می کند که پارامترهای پراکندگی و تمرکز پلاریته را برای هر W_POS محاسبه کنیم. از این دانش آماری به منظور گروه بندی خصیصه ها استفاده می کنیم همچنین الگوریتم انتخاب خصیصه ای ارایه شده است تا نرخ اثرگذاری هر گروه از خصیصه ها در فرآیند طبقه بندی محاسبه شود. به منظور طبقه بندی بردار خصیصه های Unigram و Bigram از الگوریتم های ماشین بردار پشتیبانی و دسته کننده بیز ساده استفاده می کنیم. نتایج نشان میدهد الگوریتم گروه بندی، حجم واژگانی سنتی وردنت را به کمتر از نصف کاهش داده است، که باعث شد ابعاد بردارخصیصه ها نیز به کمتر از نصف کاهش یابد، علاوه بر این، اینکه دقت عملیات طبقه بندی حداقل 2 % نسبت به روشهای پیشین بهبود داشته است.

کلمات کلیدی:
تحلیل احساس، طبقه بندی متون، مهندسی خصیصه ها، سنتیوردنت، دسته کننده بیز

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/831239/