استخراج خودکار کلمات کلیدی متون کوتاه فارسی با استفاده از word۲vec
سال انتشار: 1399
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 747
فایل این مقاله در 10 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
JR_PADSA-8-2_010
تاریخ نمایه سازی: 7 اردیبهشت 1400
چکیده مقاله:
با رشد روز افزون اسناد و متون الکترونیکی به زبان فارسی، به کارگیری روشهایی سریع و ارزان برای دسترسی بـه متـون مورد نظر از میان مجموعه وسیع این مستندات، اهمیت بیشتری مییابد. برای رسیدن به این هدف، استخراج کلمات کلیدی که بیانگر مضمون اصلی متن باشند، روشی بسیار موثر است. تعداد تکرار یک کلمه در متن نمیتواند نشاندهنده اهمیت یک کلمه و کلیدی بودن آن باشد. همچنین در اکثر روشهای استخراج کلمات کلیدی مفهوم و معنای متن نادیده گرفته میشوند. از طرفی دیگر بدون ساختار بودن متون جدید در اخبار و اسناد الکترونیکی، استخراج این کلمات را مشکل میسازد. در این مقاله روشی بدون نظارت و خودکار برای استخراج این کلمات در زبان فارسی که دارای ساختار مناسبی نمیباشد، پیشنهاد شده است که نه تنها احتمال رخ دادن کلمه در متن و تعداد تکرار آن را در نظر میگیرد، بلکه با آموزش مدل word۲vec روی متن، مفهوم و معنای متن را نیز درک میکند. در روش پیشنهادی که روشی ترکیبی از دو مدل آماری و یادگیری ماشین میباشد، پس از آموزش word۲vec روی متن، کلماتی که با سایر کلمات دارای فاصله کمی بوده استخراج شده و سپس با استفاده از همرخدادی و فرکانس رابطهای آماری برای محاسبه امتیاز پیشنهاد شده است. درنهایت با استفاده از حدآستانه کلمات با امتیاز بالاتر بهعنوان کلمه کلیدی در نظر گرفته میشوند. ارزیابیها بیانگر کارایی روش با معیار F برابر ۵۳.۹۲% و با ۱۱% افزایش نسبت به دیگر روشهای استخراج کلمات کلیدی میباشد.
کلیدواژه ها:
نویسندگان
امید حاجی پور
دانشجوی دکتری هوشمصنوعی، دانشگاه صنعتی امیرکبیر
سعیده سادات سدیدپور
استادیار دانشگاه صنعتی امیرکبیر
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :