استخراج کلمات کلیدی جهت طبقه بندی متون فارسی

سال انتشار: 1386
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 5,878

فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IDMC01_118

تاریخ نمایه سازی: 20 خرداد 1386

چکیده مقاله:

با رشد روز افزون اسناد و متون الکترونیکی به زبان فارسی، به کارگیری رو شهایی سریع و ارزان برای دسترسی به متون مورد نظر از میان مجموعه وسیع این مستندات، اهمیت بیشتری م ییابد. برای رسیدن به این هدف، استخراج کلمات کلیدی که بیانگر مضمون اصلی متن باشند، روشی بسیار موثر است. هدف ما در این مقاله، استخراج کلمات کلیدی موجود در مستندات فارسی، بر اساس معماری پیشنهادی، به منظور طبقه بندی کارآمد آنها در موتورهای جستجو اس ت. روش ارائه شده شامل دو مرحله اصلی است: مراحل پیش پردازش و عملیات استخراج کلمات کلیدی . بدی نمنظور از ترکیبی از تکنی کهای الهام گرفته ازWordnet و الگوریتم ،Porter تطبیق یافته با زبان فارسی، و تکنیک )Luhn روشی برای خلاص هسازی متن. در این روش به هر جمله یک فاکتور اهمیت داده م یشود، و جملات با بیشترین فاکتور اهمیت برای ایجاد خلاصه استفاده می شوند)، بهبود یافته، استفاده شده است. برای تسریع عملیات استخراج کلما ت کلیدی، از ساختمان داده ای مانند جداول درهم سازی و ساختارTrie استفاده می کنیم. یکی از مهمترین مسائلی که در این فرآیند، مورد توجه قرار گرفته، پوشش کلیه حالات دستوری کلمات و صورت های نگارشی مختلف آنها در زبان فارسی اس ت. بر اساس بررس یهای انجام شده بر روی یکصد متن فارسی و مقایسه نتایجِ بدست آمده با روش های دیگر، این روش م یتواند کلمات کلیدی موجود در متون را با دقت و سرعت بیشتری استخراج نماید به گون های که این کلمات کلیدی، بیانگر مضمون اصلی متن باشند.

نویسندگان

سمیه عربی نرئی

دانشجوی کارشناس یارشد نر مافزار- دانشگاه علم و صنعت ایران- دانشکده مه

مجتبی وحیدی اصل

دانشجوی کارشناس یارشد نر مافزار- دانشگاه علم و صنعت ایران- دانشکده مه

بهروز مینایی بیدگلی

استادیار کامپیوتر- دانشگاه علم و صنعت ایران- دانشکده مهندسی کامپیوتر