CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

یادگیری رتبه بندی محتوای فارسی وب بر مبنای برنامه نویسی ژنتیک چند لایه

عنوان مقاله: یادگیری رتبه بندی محتوای فارسی وب بر مبنای برنامه نویسی ژنتیک چند لایه
شناسه ملی مقاله: JR_AICTI-10-37_004
منتشر شده در در سال 1399
مشخصات نویسندگان مقاله:

امیرحسین کیهانی پور - دانشگاه تهران

خلاصه مقاله:
یادگیری رتبهبندی، یک رویکرد نو ظهور به منظور رفع چالشهای موجود و بهبود عملکرد جویشگرهای وب، بسیار امید بخش و کارآمد است. در عین حال عدم توجه جدی به سوابق تعاملات کاربران با جویشگر طی فرآیند جستجو و ارزیابی نتایج بدست آمده، یکی از معضلات جدی آن بشمار میرود. در عین حال حجم بسیار زیاد ویژگیهای مورد نیاز از اسناد و پرسوجوهای کاربران نیز کاربردی بودن این رویکرد را در شرایط واقعی با ابهام مواجه ساخته است. استفاده از مدل اطلاعات کلیک از گذر دادهها و تولید ویژگیهای کلیک از گذر داده، راهکار نوینی است که بر مبنای آن و با بکارگیری مدل برنامهنویسی ژنتیک چند لایه، مدل رتبهبندی مناسبی تحت عنوان MGP-Rank برای بازیابی اطلاعات انگلیسی وب، عرضه شده است. در این پژوهش این، با عنایت به ویژگیهای خاص زبان فارسی، از طریق ارائه سناریوهای مناسب برای ایجاد ویژگیهای کلیک از گذر داده این الگوریتم، این الگوریتم بومیسازی شده است. نتایج حاصل از ارزیابی عملکرد این الگوریتم در حوزه زبان فارسی با استفاده از مجموعه داده dotIR، حاکی از توانمندی قابل ملاحظه آن نسبت به روشهای مرجع رتبهبندی اطلاعات است. این بهبود عملکرد، بخصوص در بخش ابتدایی فهرست نتایج جستجو که غالبا بیشتر مورد مراجعه کاربران است، قابل توجه است.

کلمات کلیدی:
یادگیری رتبه بندی، مدل برنامه نویسی ژنتیک چند لایه، ویژگی های کلیک از گذر داده، محتوای فارسی وب، مجموعه داده dotIR

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1858970/