CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

ارزیابی پایداری روشهای مد لسازی موضوضعی مبتنی بر معناشناسی کلمات بر استخراج موضوع از مجموعه داده های متنی پویا

عنوان مقاله: ارزیابی پایداری روشهای مد لسازی موضوضعی مبتنی بر معناشناسی کلمات بر استخراج موضوع از مجموعه داده های متنی پویا
شناسه ملی مقاله: IVCONF04_266
منتشر شده در چهارمین همایش ملی توسعه علوم فناوریهای نوین در مدیریت، حسابداری و کامپیوتر در سال 1400
مشخصات نویسندگان مقاله:

محدثه طاهرپور - دانشجوی دکتری، گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه آزاد اسلامی واحد رشت
فاطمه احمدی ابکناری - استادیار، گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه پیام نور مرکز رشت
پیمان بیات - استادیار، گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه آزاد اسلامی واحد رشت

خلاصه مقاله:
پردازش زبان طبیعی دارای دانش بسیار گسترده ای است. مدلسازی موضوعی ابزاری برای کشف ساختارهای معنایی پنهان در اسنادمتنی است. مدلهای موضوعی روش مناسبی را در خصوص تجزیه و تحلیل متن های بزرگ طبقه بندی نشده ارائه می دهند.مدلسازی موضوعی روشی برای مدلسازی معناشناسی کلمات براساس موضوع است. و ایده ی اصلی آن روش ها این است کهکلمات با معنای مشابه در اسناد مشابه وجود دارند. یک موضوع شامل مجموعه ای از کلمات است که غالبا در کنار هم وجود دارند.مدلسازی موضوعی می تواند کلمات با معانی مشابه را به هم متصل کند و بین کاربردهای کلمات با چندین معنی تفاوت قائل شود.امروزه با توجه به استفاده گسترده از متون بزرط طبقه بندی نشده در تمام حوزه ها، الزام استخراج موضوع مناسب با هدف دسته بندی بهینه ی متون بسیار به چشم می خورد. موضوعات استخراج شده باید دارای کیفیت لازم باشند. پارامترهایی که در این خصوصمی توانند کمک شایانی کنند عباتند از، انسجام و شیوع موضنوعات در متن سند. در این مقاله در ابتدا به بررسی روش هایمدلسازی موضوعی مانند، تحلیل معنایی نهفته یا LSA ، تحلیل معنایی نهفته احتمالی یا PLSA ، تخصیص پنهان دیریکله یاLDA و مدل موضوع مرتبط ۷ CTM پرداخته شده است. ویژگی ها و محدویت های هر کدام از روش ها بررسی شده و در انتهاکیفیت موضوعات ارائه شده هر روش مدلسازی با هدف پیدا کردن بهترین موضوع انتخابی و همچنین ارزیابی پایداری روش هایمختلف مورد تحلیل و بررسی قرار گرفته است. روشی پایدارتر است که موضوع ارائه شده ی انتخابی آن دارای معیارهای خوب کیفیتیباشد. نتایج بدست آمده از بررسی انواع روش های مدلسازی موضوعی بر پایگاه داده DBLP و نوع گره موضنوع مقاله و ارزیابینتایج با معیارهای ارزیابی موضوعی نشان از پایداری و تطابق روش مدلسازی CTM بر روی این پایگاه داده دارد.

کلمات کلیدی:
تحلیل محتوا، تشخیص جامعه، مدل سازی موضوعی، متن کاوی، یادگیری ماشینی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1317420/