ارائه روشی جدید در طبقه بندی متون فارسی با استفاده از دانش معنایی

سال انتشار: 1388
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,874

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CSICC15_254

تاریخ نمایه سازی: 26 مهر 1388

چکیده مقاله:

امروزه با افزایش روزافزون حجم اطلاعات، وجود سیستمی برای دستهبندی خودکار متون ضروری به نظر میرسد. در این مقاله سیستم جدیدی برای دسته بندی خودکار متون فارسی ارائه شده است.این سیستم شامل دو مرحله اصلی است: مرحله پردازش و مرحله دستهبندی. در مرحله اول با پردازش دادههای آموزشی بهترین ویژگی های نماینده هر کلاس استخراج شده و برای آموزش دست هبندی کننده مبتنی بر ماشین بردار پشتیبان استفاده میشوند و سپس در فازدستهبندی، ماشین بردار پشتیبان قادر خواهد بود دادههای تست را به یکی از کلاسهای آموزش داده شده نسبت دهد. در روش ارائه شده دراین مقاله برای افزایش دقت دستهبندی کننده از دانش معنایی موجود در گنجواژه بهره گرفته شده است. به این ترتیب که ویژگیهای مربوط به هر کلاس میتواند با استفاده از گنجواژه گسترش یابد. برای ارزیابی روش پیشنهادی مجموعه داده آموزشی و تست لازم شامل متون فارسی از طرق مختلف مانند وب و پیکرههایی به زبان فارسی جمع آوری و برچسب زنی شده و تأثیر تعداد کلاسهای متفاوت و حجم مجموعه داده آموزشی در میزان بهبود حاصل از استفاده گنجواژه مورد آزمایش و بررسی قرار گرفته است. نتایج آزمایشها حاکی از بهبود عملکرد با استفاده از این روش میباشد. همچنین قابل مشاهده است که به کارگیری این روش در حالت کمبود دادههای آموزشی تأثیر قابل توجهی در افزایش کارایی دارد.

نویسندگان

نوشین مقصودی

آزمایشگاه پردازش هوشمند سیگنال و گفتار، دانشکده مهندسی کامپیوتر وفن

محمدمهدی همایون پور

آزمایشگاه پردازش هوشمند سیگنال و گفتار، دانشکده مهندسی کامپیوتر وفن

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • جمشید فراروی، "فرهنگ مقوله‌ای (تزاروس) و انتقال الکترونیک محتوای زبان ...
  • روشی برای دسته‌بندی خودکار متون چند کلاسه فارسی با استفاده ...
  • knowledge management of contents, pp. 148-155, 1998. [7] _ _ ...
  • McCallum, A.; Nigam, K. _ comparison of event models for ...
  • Wiener, E., Pedersen, J. O.; Weigend, A. S. ":A neural ...
  • systems", Bell Technical Journal, 28(4), pp. 656-715, [10] _ _ ...
  • _ _ _ _ _ _ 43(4), pp. ...
  • Y ang, Y. ":An evaluation of statistical approaches to text ...
  • Vapik V.N. _ nature of statistical learning theory, Springer Verlag, ...
  • Roget's Thesaurus, Karpeles Manuscript Library, h ttp ://www.rain، , _ ...
  • Shannon, C. E. "The communication theory of secrecy 1949. ...
  • http :/www.ling .ohio- state .edu/-jonsafari/ ...
  • نمایش کامل مراجع