مدلسازی آماری زبان فارسی توسط شبکه عصبی جلوسوی چندلایه

علی, خان آقا; سیدعلی, سیدصالحی; فرشاد, المان گنج

مدلسازی آماری زبان فارسی توسط شبکه عصبی جلوسوی چندلایه

عنوان مقاله: مدلسازی آماری زبان فارسی توسط شبکه عصبی جلوسوی چندلایه
شناسه ملی مقاله: ICIKT02_009
منتشر شده در دومین کنفرانس بین المللی فناوری اطلاعات و دانش در سال 1384

مشخصات نویسندگان مقاله:

علی خان آقا - کارشناس ارشد بیوالکتریک، دانشگاه صنعتی امیرکبیر، دانشکده مهندسی پزش
سیدعلی سیدصالحی - استادیار دانشکده مهندسی پزشکی، دانشگاه صنهعتی امیرکبیر، پژوهشکده پ
فرشاد المان گنج - استادیار دانشکده مهندسی پزشکی، دانشگاه صنهعتی امیرکبیر، پژوهشکده پ

خلاصه مقاله:

این مقاله به موفقترین روش مدلسازی زبان در سالهای اخیر می پردازد. مشکل اساسی مدلهای متداول انست که ممکن است مدل بر روی جملات جدیدی بکار رود که باجملات تعلیم متفاوت باشند. برای تعمیم دادگان موجود بجای ترکیب رشته های کوچکتر کلمات، بانگاشت کلمات به یک فضای پیوسته، ابتدا تصویری از شباهت بین کلمات بدست آورده، سپس تخمین احتمال مشترک کلمات را در فضای جدید انجام می دهیم. در نتیجه هر یک از جملات تعلیم، مدل را از تعداد زیادی جملات هم معنی آگاه می سازند. یک شبکه عصبی نگاشت کلمات بهفضای هدف و تخمین احتمالات در فضای جدید را همزمان می آموزد. (پس از غلبه بر چالش بزرگ همگرا کردن شبکه ای با میلیونها پارامتر آزاد در زمان قابل قبول). نتایج تعلیم مدل بر روی زبان فارسی نسبتا موفقیت آمیز بوده و راه را برای تحقیقات اینده هموار می سازند.

کلمات کلیدی:

مدلسازی آماری زبان ، شبکه های عصبی مصنوعی ، مدل زبانی ، طبقه بندی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/43975/