تشخیص موضوعات پنهان در مقالات علمی فارسی

سال انتشار: 1400
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 337

فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IECECONF01_018

تاریخ نمایه سازی: 8 آبان 1400

چکیده مقاله:

در سال های اخیر با ظهور وب، حجم داده های متنی افزایش چشم گیری داشته است که این امر منجر به دشواری و پیچیدگی هایی در بدست آوردن اطلاعات دلخواه و مرتبط میان حجم بسیار زیادی از این داده ها شده است. مقالات علمی حجم بسیار زیادی از این داده های متنی را تشکیل می دهند که بدست آوردن مقالات مرتبط و دلخواه از جمله نیازهای ضروری پژوهشگران می باشد. بنابراین نیاز به الگوریتم ها و تکنیک های قوی برای پردازش این نوع از داده ها در جهت یافتن دانش از آنها می باشد. علاوه بر آن، با توجه پیچیدگی های رسم و خط فارسی، پردازش متون فارسی همواره با پیچیدگی ها و سختی هایی همراه بوده است. نظر به اهمیت استخراج دانش از مقالات علمی فارسی، این مقاله به تشخیص موضوعات پنهان در دو نشریه از نشریات وزارت علوم با استفاده از مدلسازی موضوعی احتمالاتی می پردازد. مدلسازی مووضعی احتمالی، فرآیند تشخیص خودکار موضوعات در یک متن با هدف کشف الگوهای پنهان می باشد. در این مقاله، به منظور بدست آوردن مدلسازی موضوعی از الگوریتم تخصیص پنهان دیریکله استفاده شده است. این الگوریتم فرض می کند که نشریه از موضوعات متفاوتی تشکیل شده اند که هر یک متعلق به یک موضوع است و همچنین نسبت موضوعات داخل یک متن یا یکدیگر متفاوت است. یکی از بزرگترین مشکلات موجود در مدلسازی موضوعی، بدست آوردن پارامتر تعداد موضوعات می باشد که کارایی مدل و نتایج نهایی به این پارامتر وابسته است. در این مقاله این مشکل مورد بررسی و تحلیل قرار گرفته و تعداد موضوعات برای دو نشریه منتخب از نشریات وزارت علوم، تخمین زده و کارایی نتایج بدست آمده با معیار عددی و شهودی نشان داده شده است.

کلیدواژه ها:

مدلسازی موضوعی ، الگوریتم تخصیص پنهان دیریکله جستجوی گریدی ، انسجام معنایی

نویسندگان

نیلوفر مظفری

استادیار گروه پژوهشی طراحی و عملیات سیستم ها، مرکز منطقه ای اطلاع رسانی علوم فناوری، ایران