ارائه خصیصه های خاص زبان فارسی جهت بازیابی و بازشناسی کلمات تصویری فارسی با استفاده از تعبیه برچسب

سال انتشار: 1395
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 266

فایل این مقاله در 10 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_JMVIP-3-1_005

تاریخ نمایه سازی: 23 اردیبهشت 1400

چکیده مقاله:

جستجو و بازیابی کلمات دستنویس در اسناد تصویری روشی جایگزین برای بازشناسی کاراکترهای نوری (OCR) است. این راهکار بیشتر در مواردی که بازشناسی کاراکترهای نوری دقت پایینی دارند، مانند متون دستنویس یا متون چاپی با کیفیت پایینی مطرح می گردد. امروزه یکی از روشهای کارآمد در بازیابی مبتنی بر محتوای تصویر، که برای کلمات تصویری هم توسعه داده شده است، استفاده از رده بندی مبتنی بر خصیصه (Attribute-based Classification) و همچنین تعبیه برچسب (Label Embedding) است. در این مقاله چند خصیصه مختلف مبتنی بر ساختار نگارش زبان فارسی جهت استفاده در بازیابی کلمات تصویری فارسی معرفی شده و نتایج حاصل از روش های مبتنی بر خصیصه های پیشنهادی مقایسه گردیده است. در ارائه خصیصه ها ساختار نگارشی زبان فارسی درنظر گرفته شده است تا بهترین مطابقت را با روش نگارش فارسی داشته باشد. روش مورد مطالعه توانایی بازیابی کلمات تصویری با استفاده از کلمه پرسشی تصویری و متنی را داراست. علاوه بر این می تواند به عنوان روشی جهت بازشناسی کلمات نیز مورد استفاده قرار گیرد. همچنین روش ارائه شده با استفاده از قابلیت رده بندی مبتنی بر خصیصه، توانایی شناسایی کلاس کلماتی که در پایگاه داده آموزشی وجود ندارد را نیز دارا است. آزمایش های تجربی بر روی دو مجموعه داده استاندارد فارسا و ایرانشهر مورد بررسی قرار گرفته و نتایج حاصل از اجرای روش پیشنهادی قابل قبول است.

کلیدواژه ها:

بازیابی کلمات تصویری دستنویس ، بازشناسی کلمات تصویری دستنویس ، رده بندی مبتنی بر خصیصه ، تعبیه برچسب

نویسندگان

مجید ایرانپور مبارکه

دانشجوی دکتری، دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صتعتی شاهرود

علیرضا احمدی فرد

دانشکده مهندسی برق و رباتیک، دانشگاه صنعتی شاهرود