استخراج کلمات کلیدی جهت طبقه بندی متون فارسی
محل انتشار: اولین کنفرانس داده کاوی ایران
سال انتشار: 1386
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 5,878
فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
IDMC01_118
تاریخ نمایه سازی: 20 خرداد 1386
چکیده مقاله:
با رشد روز افزون اسناد و متون الکترونیکی به زبان فارسی، به کارگیری رو شهایی سریع و ارزان برای دسترسی به متون مورد نظر از میان مجموعه وسیع این مستندات، اهمیت بیشتری م ییابد. برای رسیدن به این هدف، استخراج کلمات کلیدی که بیانگر مضمون اصلی متن باشند، روشی بسیار موثر است. هدف ما در این مقاله، استخراج کلمات کلیدی موجود در مستندات فارسی، بر اساس معماری پیشنهادی، به منظور طبقه بندی کارآمد آنها در موتورهای جستجو اس ت. روش ارائه شده شامل دو مرحله اصلی است: مراحل پیش پردازش و عملیات استخراج کلمات کلیدی . بدی نمنظور از ترکیبی از تکنی کهای الهام گرفته ازWordnet و الگوریتم ،Porter تطبیق یافته با زبان فارسی، و تکنیک )Luhn روشی برای خلاص هسازی متن. در این روش به هر جمله یک فاکتور اهمیت داده م یشود، و جملات با بیشترین فاکتور اهمیت برای ایجاد خلاصه استفاده می شوند)، بهبود یافته، استفاده شده است. برای تسریع عملیات استخراج کلما ت کلیدی، از ساختمان داده ای مانند جداول درهم سازی و ساختارTrie استفاده می کنیم. یکی از مهمترین مسائلی که در این فرآیند، مورد توجه قرار گرفته، پوشش کلیه حالات دستوری کلمات و صورت های نگارشی مختلف آنها در زبان فارسی اس ت. بر اساس بررس یهای انجام شده بر روی یکصد متن فارسی و مقایسه نتایجِ بدست آمده با روش های دیگر، این روش م یتواند کلمات کلیدی موجود در متون را با دقت و سرعت بیشتری استخراج نماید به گون های که این کلمات کلیدی، بیانگر مضمون اصلی متن باشند.
کلیدواژه ها:
نویسندگان
سمیه عربی نرئی
دانشجوی کارشناس یارشد نر مافزار- دانشگاه علم و صنعت ایران- دانشکده مه
مجتبی وحیدی اصل
دانشجوی کارشناس یارشد نر مافزار- دانشگاه علم و صنعت ایران- دانشکده مه
بهروز مینایی بیدگلی
استادیار کامپیوتر- دانشگاه علم و صنعت ایران- دانشکده مهندسی کامپیوتر