CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

جداسازی خطوط متن و استخراج برون خط دنباله ای از مولفه های متصل در دست نوشته فارسی

عنوان مقاله: جداسازی خطوط متن و استخراج برون خط دنباله ای از مولفه های متصل در دست نوشته فارسی
شناسه ملی مقاله: ICMVIP09_040
منتشر شده در نهمین کنفرانس ماشین بینایی و پردازش تصویر ایران در سال 1394
مشخصات نویسندگان مقاله:

بهاره اسدی - دانشگاه شاهرود، بخش مهندسی برق
علیرضا احمدی فرد - دانشگاه شاهرود، بخش مهندسی برق
مجید ایران پور مبارکه - دانشگاه شاهرود، بخش مهندسی کامپیوتر و فناوری اطلاعات

خلاصه مقاله:
در این مقاله روشی برای جداسازی خطوط متن در دست نوشته فارسی با استفاده از استخراج برون خط دنباله ای از مولفه های متصل ارائه شده است. در این روش ابتدا کل مولفه های متصل موجود در متن استخراج شده سپس مولفه ی متصل که شروع کننده هر خط است مشخص می شود. در ادامه با اعمال روش نزدیک ترین همسایه، تمام مولفه های متصل هر خط بصورت یک زنجیره و به همان ترتیبی که در متن قرار دارند بدست می ایند. در نتیجه بعد از این مرحله، هر یک از مولفه های متصل موجود در متن به یکی از خطوط اختصاص یافته اند. در واقع می توان هر خط را با مولفه های متصلش به طور مستقل از مابقی خطوط نمایش داد. نتیجه این مرحله جداسازی خطوط از یکدیگر می باشد. در مرحله ی بعدی با در نظر گرفتن این قانون که اکثر حروف اضافه و کلمات فارسی از ترکیب دو تا هفت مولفه متصل تشکیل شده اند استخراج کلمات متن انجام می شود. مولفه های متصلی که مربوط به یک کلمه مستقل در متن هستند به همان ترتیبی که در کلمه وجود دارند با این روش شناسایی شده اند. نرخ آشکارسازی در مرحله جداسازی خطوط برابر با ۹۹.۵ درصد می باشد. درصد دقت در مرحله استخراج دنباله ای از مولفه های متصل، ۹۴.۳۶ برای کلمات و ۹۷.۶ برای حروف اضافه است.

کلمات کلیدی:
جداسازی خطوط متن، پردازش اسناد دست نویس فارسی ، مولفه متصل

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/568567/