خلاصه سازی استخراجی چند سندی، مبتنی بر پرس وجوی کاربر با استفاده از روش های یادگیری ماشین و ویژگی های زبان شناسی

سال انتشار: 1402
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 112

فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

AISOFT01_055

تاریخ نمایه سازی: 28 بهمن 1402

چکیده مقاله:

هم زمان با رشد سریع اینترنت و مواجهه با حجم عظیمی از اطلاعات در فضای وب نظیر شبکه های اجتماعی و بازاریابی دیجیتال و غیره، خلاصه سازی خودکار متن کمک شایانی به تحلیل و بازیابی متون در بحث جستجوی اطلاعات می کند. خلاصه سازی متن عبارت است از حذف داده های تکراری و بی ارزش به نحوی که تنها اطلاعات مهم استخراج شود. در این مقاله، با تمرکز بر چالش های اصلی خلاصه سازی چندسندی، یعنی پوشش کامل مطالب اصلی و عدم وجود افزونگی و هم چنین در نظر گرفتن پرس و جوی کاربر، روش جدیدی برای خلاصه سازی چندسندی استخراجی، مبتنی بر پرس وجوی کاربر ارائه شده است. در مدل پیشنهادی در ابتدا جملاتی که پوشش دهنده محتوای معنایی اسناد هستند، استخراج می شوند. سپس آن دسته از جملاتی که دارای افزونگی بوده یا مرتبط به پرس وجوی کاربر نمی-باشند، حذف می گردند. درنهایت با استفاده از تولید ماتریس ویژگی و یک شبکه عصبی ساده به جملات نمره داده می شود. سپس با توجه به طول خلاصه مورد نظر، جملات دارای نمره بالاتر برای تولید خلاصه انتخاب می گردند. ارزیابی سیستم پیشنهادی با استفاده از مجموعه دادگان انگلیسی ارائه شده توسط کنفرانس DUC۲۰۰۷ و با استفاده از معیارROUGE صورت گرفته است. نتایج حاصل از ارزیابی، حاکی از آن است که سیستم پیشنهادی نسبت به سیستم پایه به میزان ۹.۲۸ درصد، معیار-F را بهبود بخشیده است.

کلیدواژه ها:

خلاصه سازی مبتنی بر پرس وجوی کاربر ، خلاصه سازی استخراجی چند سندی ، استخراج ویژگی ، ارتباط معنایی

نویسندگان

سیمین ذوالفقاری

دانشجوی ارشد مهندسی نرمافزار، دانشکده مهندسی کامپیوتر، دانشگاه یزد، یزد

محمدرضا پژوهان

استادیار، دانشکده مهندسی کامپیوتر، دانشگاه یزد، یزد