PSWG: an automatic stop-word list generator for persian information retrieval systems based on similarity function & pos information

سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: انگلیسی
مشاهده: 498

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

KBEI02_246

تاریخ نمایه سازی: 5 بهمن 1395

چکیده مقاله:

By the advent of new information resources, search engines have encountered a new challenge since they have been obliged to store a large amount of text materials. This is even more drastic for small-sized companies which are suffering from a lack of hardware resources and limited budgets. In such a circumstance, reducing index size is of paramount importance as it is to maintain the accuracy of retrieval. One of the primary ways to reduce the index size in text processing systems is to remove stop-words, frequently occurring terms which do not contribute to the information content of documents. Even though there are manually built stop-word lists almost for all languages in the world, stop-word lists are domain-specific; in other words, a term which is a stop-word in a specific domain may play an indispensable role in another one. This paper proposes an aggregated method for automatically building stop-word lists for Persian information retrieval systems. Using part of speech tagging and analyzing statistical features of terms, the proposed method tries to enhance the accuracy of retrieval and minimize potential side effects of removing informative terms.. The experiment results show that the proposed approach enhances the average precision, decreases the index storage size, and improves the overall response time.

کلیدواژه ها:

نویسندگان

Mohammad-Ali Yaghoub-Zadeh-Fard

Iran University of Science and Technology Tehran, Iran

Behrouz Minaei-Bidgoli

Iran University of Science and Technology Tehran, Iran

Saeed Rahmani

Freelancer Tehran, Iran

Saeed Shahrivari

Freelancer Tehran, Iran

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • S. Popova, T. Krivosheeva, and M. Korenevsky, "Automatic Stop List ...
  • T. M. Cover, and J. A Thomas, Elements of information ...
  • Copyright Notice is: 978-1 -4673-6506-2/ 5/831 _ 00 G2015 IEEE ...
  • نمایش کامل مراجع