معرفی یک مجموعه داده برای کاربرد های درک و ناحیه بندی تصاویر اسناد فارسی

امین فرجی; مسعود سعید; حسین نظام آبادی پور

معرفی یک مجموعه داده برای کاربرد های درک و ناحیه بندی تصاویر اسناد فارسی

محل انتشار: ماشین بینایی و پردازش تصویر، دوره: 10، شماره: 2

سال انتشار: 1402

نوع سند: مقاله ژورنالی

زبان: فارسی

مشاهده: 160

فایل این مقاله در 16 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > پردازش تصویر

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/1634211

شناسه ملی سند علمی:

JR_JMVIP-10-2_003

تاریخ نمایه سازی: 28 فروردین 1402

چکیده مقاله:

وجود مجموعه داده های تصویری نقش اساسی در زمینه تشخیص نویسه خوان نوری (OCR) و بازیابی اسناد دارد. علی رغم اینکه تا به امروز مجموعه دادههای تصویری زیادی با اشیا متفاوت در حوزه درک و ناحیه بندی اسناد غیرفارسی منتشر شده است، رسم الخط فارسی از این پیشرفت عقب مانده است و تاکنون در زمینه درک و ناحیه بندی اسناد فارسی، مجموعه دادگانی با دسترسی عمومی ارائه نشده است. از سوی دیگر، اگرچه زبان های فارسی و عربی شباهت های زیادی دارند، اما تفاوت بین ساختار این دو زبان باعث می شود که سیستم های آموزش دیدهOCR با مجموعه داده عربی، دقت مناسبی روی تصاویر اسناد فارسی نداشته باشند. در این مقاله، یک مجموعه داده برای تصاویر اسناد فارسی معرفی میگردد که مشتمل بر ۵۵۹۸ تصویر است. تصاویر تهیه شده متعلق به روزنامه ها، کتاب های درسی، مقالات علمی، فایلهای PDF فارسی، پایاننامهها، انواع لوگو ایرانی، کتب دستنوشته قدیمی و جزوات تایپ شده و دستنویس ریاضی هستند. در مجموعه داده معرفی شده، اشیا درون تصاویر به ۶ گروه پاراگراف (متن)، شکل، جدول، لوگو، رابطه ریاضی و سرصفحه دسته بندی و برچسب گذاری شده اند. برای ارزیابی کارایی مجموعه تصویر پیشنهادی، سه روش شناخته شده مبتنی بر یادگیری عمیق پیاده سازی و نتایج بر مبنای معیارهای مختلف گزارش شده است.

کلیدواژه ها:

پردازش تصویر ، اسناد متن فارسی ، ناحیه بندی سند ، درک سند ، مجموعه داده

نویسندگان

امین فرجی

دانشجوی کارشناسی ارشد بخش مهندسی کامپیوتر دانشگاه شهید باهنر کرمان

مسعود سعید

دانشکده فنی و مهندسی دانشگاه شهید باهنر کرمان

حسین نظام آبادی پور

دانشکده فنی و مهندسی دانشگاه شهید باهنر کرمان