مقایسه دستهبندی متون فارسی با استفاده از الگوریتمهای kNN و fkNN وانتخاب ویژگیها بر اساس بهره اطلاعات و فرکانس سند
محل انتشار: سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران
سال انتشار: 1386
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 3,648
متن کامل این مقاله منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل مقاله (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ACCSI13_192
تاریخ نمایه سازی: 25 آبان 1386
چکیده مقاله:
در این مقاله به بررسی دستهبندی متن فارسی با استفاده از الگوریتمهایfkNN و kNN خواهیم پرداخت. آزمایشها بر روی ششصد سند متنی که به شش دسته تقسیم میشوند، انجام شدهاند.
هدف اساسی این بررسی، مقایسه دو الگوریتم مذکور برای دستهبندی متن فارسی و ترکیب آنها با روشهای انتخاب ویژگی بهره اطلاعات IG و فرکانس سندDF است. از این دو روش برای انتخاب ویژگیها و کاستن از ابعاد فضای ویژگیها استفاده شده است. نتایج نشان میدهند که دقت الگوریتمfkNN از الگوریتم kNN بهتر است. همچنین دقت دستهبندی با استفاده از ترکیبIG و fkNN از سایر ترکیبها بیشتر میباشد. دقت دسته بندی در بهترین حالت به 0/804دقت میکرو- 1F و 0/755دقت ماکرو - F1 رسید . همچنین میتوان نتیجه گرفت کهIG بیشتر از DF دقت را بالا میبرد . در بین
دستههای موجود بهترین دستهبندی در مورد بزرگترین دسته یعنی اسناد مربوط به دسته اقتصادی انجام گرفت. دقت دستهبندی برای این
کلیدواژه ها:
دستهبندی متن ، انتخاب ویژگی ، دسته بند kNN ، (K-Nearest Neighborمدل ، (bag-of-words) BOW پیش پردازش متن
نویسندگان
محمداحسان بصیری
گروه کامپیوتر دانشگاه اصفهان
شهلا نعمتی
دانشکده برق و کامپیوتر دانشگاه صنعتی اصفهان
ناصر قاسم آقایی
گروه کامپیوتر دانشگاه اصفهان
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :