استخراج کلمات کلیدی بصورت مستقل از زبان
محل انتشار: سومین کنگره بین المللی کامپیوتر، برق و مخابرات
سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 762
فایل این مقاله در 12 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ITCC03_102
تاریخ نمایه سازی: 6 اردیبهشت 1396
چکیده مقاله:
بحث اطلاعات، بازیابی و مدیریت آن از منظر اقتصادی، اجتماعی، سیاسی و امنیتی اهمیت بسیار زیادی برای کشورهایمختلف و کمپانی های بزرگ حوزه اطلاعات و فن آوری اطلاعات دارند. اولین گام در این حوزه، شناسایی و استخراج کلمات کلیدی از متون می باشد. یکی از چالش های عمده بر سر راه این امر، وجود زبان های بسیار متنوع برای اطلاعات متنی و وابستگی روش های موجود استخراج کلمات کلیدی به نوع زبان و ساختار کلامی آن زبان خاص می باشد. لذا هدف این پژوهش، طراحی الگوریتمی مستقل از زبان به منظور استخراج کلمات کلیدی می باشد. از این رو با تمرکز روی خاصیت تکرار کلمات کلیدی در هر متن و نسبت تکرار آن در سایر متون و با کمک از الگوریتم TF_IDF این امر انجام شده است و در نهایت میانگین بیشترین تکرار به عنوان کلمه کلیدی انتخاب می گردد. عملکرد الگوریتم پیشنهادی نیز توسط معیار نرخ دقت تشخیص مورد ارزیابی قرار گرفته است. اگرچه کارهای مشابه در این زمینه به صورت مستقل از زبان وجود نداشته ولی مقایسه عملکرد با کارهای نزدیک در حوزه استخراج کلمات کلیدی وابسته به زبان، حکایت از عملکرد قابل قبول الگوریتم پیشنهادی را دارد. لازم به ذکر است که این الگوریتم با الگوریتم مبتنیبر گراف که فقط برای زبان انگلیسی پیاده سازی شده مقایسه گردیده است، که نرخ دقت کلی الگوریتم پیشنهادی83.34 درصد بوده است.
کلیدواژه ها:
نویسندگان
بهاره هاشم زاده
مربی گروه کامپیوتر و فناوری اطلاعات، دانشگاه تربت حیدریه
علی ماروسی
استادیار گروه کامپیوتر و فناوری اطلاعات، دانشگاه تربت حیدریه
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :