CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

برچسبزن دستوری واژگان فارسی به کمک مدلهای پنهان مارکوف

عنوان مقاله: برچسبزن دستوری واژگان فارسی به کمک مدلهای پنهان مارکوف
شناسه ملی مقاله: ACCSI13_103
منتشر شده در سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران در سال 1386
مشخصات نویسندگان مقاله:

سعید راحتی قوچانی - استادیار گروه برق- مخابرات، دانشگاه آزاد اسلامی مشهد، ایران
علی عظیمی زاده - دانشجوی کارشناسی گروه برق- مخابرات، دانشگاه آزاد اسلامی مشهد، ایران
محمدمهدی عرب - دانشجوی کارشناسی گروه برق- مخابرات، دانشگاه آزاد اسلامی مشهد، ایران

خلاصه مقاله:
در این مقاله به نحوه پیادهسازی برچسبزن دستوری واژگان فارسی براساس مدلهای پنهان مارکوف پرداخته می شود . این برچسبزن به منظور تغذیه داد ه ای برای قسمتهایی نظیر یافتن مکثهای بین کلمهای، رفع ابهام کلمه های هموگراف، یافتن نقشنمای اضافه و ... استفاده شده است. این برچسبزن، دارای یک لغتنامه دستوری با 61521 کلمه و 64003 عدد - 3gram به عنوان مدل زبانی است . همچنین از کدبردار ویتربی موجود در ابزار گفتار دانشگاه ادینبرگ استفاده شده است. میزان متوسط دقت کلی این سیستم، %95.11 است. همچنین، میزان دقت این سیستم در تشخیص برچسب دستوری کلمات شناختهشده و ناشناخته به ترتیب 96.136% و 60.25 % میباشد.

کلمات کلیدی:
برچس بزن دستوری، مدلهای پنهان مارکوف، پردازش زبان طبیعی، نرمالسازی متن، الگوریتم ویتربی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/41697/