استخراج خودکار کلمات کلیدی متون کوتاه فارسی با استفاده از word۲vec

سال انتشار: 1399
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 747

فایل این مقاله در 10 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_PADSA-8-2_010

تاریخ نمایه سازی: 7 اردیبهشت 1400

چکیده مقاله:

با رشد روز افزون اسناد و متون الکترونیکی به زبان فارسی، به کارگیری روش­هایی سریع و ارزان برای دسترسی بـه متـون مورد نظر از میان مجموعه وسیع این مستندات، اهمیت بیشتری می­یابد. برای رسیدن به این هدف، استخراج کلمات کلیدی که بیانگر مضمون اصلی متن باشند، روشی بسیار موثر است. تعداد تکرار یک کلمه در متن نمی­تواند نشان­دهنده­ اهمیت یک کلمه و کلیدی بودن آن باشد. همچنین در اکثر روش­های استخراج کلمات کلیدی مفهوم و معنای متن نادیده گرفته می­شوند. از طرفی دیگر بدون ساختار بودن متون جدید در اخبار و اسناد الکترونیکی، استخراج این کلمات را مشکل می­سازد. در این مقاله روشی بدون نظارت و خودکار برای استخراج این کلمات در زبان فارسی که دارای ساختار مناسبی نمی­باشد، پیشنهاد شده است که نه تنها احتمال رخ دادن کلمه در متن و تعداد تکرار آن را در نظر می­گیرد، بلکه با آموزش مدل word۲vec روی متن، مفهوم و معنای متن را نیز درک می­کند. در روش پیشنهادی که روشی ترکیبی از دو مدل آماری و یادگیری ماشین می­باشد، پس از آموزش word۲vec روی متن، کلماتی که با سایر کلمات دارای فاصله­ کمی بوده استخراج شده و سپس با استفاده از هم­رخدادی و فرکانس رابطه­ای آماری برای محاسبه امتیاز پیشنهاد شده است. درنهایت با استفاده از حدآستانه کلمات با امتیاز بالاتر بهعنوان کلمه کلیدی در نظر گرفته می­شوند. ارزیابی­­ها بیانگر کارایی روش با معیار F برابر ۵۳.۹۲% و با ۱۱% افزایش نسبت به دیگر روشهای استخراج کلمات کلیدی می­باشد.

نویسندگان

امید حاجی پور

دانشجوی دکتری هوشمصنوعی، دانشگاه صنعتی امیرکبیر

سعیده سادات سدیدپور

استادیار دانشگاه صنعتی امیرکبیر

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • [1] Z. Wu, et al., “An Efficient Wikipedia Semantic Matching ...
  • [2] C. Jia, et al., “Concept Decompositions for Short Text ...
  • [3] S. K. Bharti and K. S. Babu, “Automatic Keyword ...
  • [4] M. Yousefi-Azar and L. Hamey, “Text Summarization Using Unsupervised ...
  • [5] Z. Sepehrian and H. Shirazi, “A New Way To ...
  • [6] S. K. Biswas, M. Bordoloi, and J. Shreya, “A ...
  • [7] R. Harakawa, T. Ogawa, and M. Haseyama, “Extraction of ...
  • [8] G. Zipf, “Human Behaviour and The Principle of              Least-Effort,” ...
  • [9] B. Das, et al., “Automatic Keyword Extraction From any ...
  • [10] J. Li and K. Zhang, “Keyword Extraction Based on ...
  • [11] Y. Matsuo and M. Ishizuka, “Keyword Extraction From a ...
  • [12] S. Rose, et al., “Automatic Keyword Extraction From Individual ...
  • [13] C. Zhang, “Automatic Keyword Extraction From Documents Using Conditional ...
  • [14] E. Frank, et al., “Domain-Specific Keyphrase Extraction,” In 16th ...
  • [15] K. Zhang, et al., “Keyword Extraction Using Support Vector ...
  • [16] Y. HaCohen-Kerner, Z. Gross, and A. Masa, “Automatic Extraction ...
  • [17] R. Mihalcea and P. Tarau, “Bringing Order Into Text,” ...
  • [18] S. Brin and L. Page, “The Anatomy Of A ...
  • [19] A. Bougouin, F. Boudin, and B. Daille, “Topicrank:      Graph-Based ...
  • [20] A. Tixier, F. Malliaros, and M. Vazirgiannis, “A Graph ...
  • [21] J. Li, et al., “Key Word Extraction for Short ...
  • [22] J. R. Thomas, S. K. Bharti, and K. S. ...
  •  [23] X. Wan and J. Xiao, “Single Document Keyphrase Extraction ...
  • [24] R. Naidu, et al., “Text Summarization with Automatic Keyword ...
  • [25] T. Mikolov, et al., “Distributed Representations of Words and ...
  • [26] W. Zhang, T. Yoshida, and X. Tang, “A Comparative ...
  • [27] J. A. Lossio-Ventura, et al., “Yet Another Ranking Function ...
  • [28] R. Campos, et al., “Yake! Collection-Independent Automatic Keyword Extractor,” ...
  • [29] M. Saraswathi and V. Balu, “Preprocessing Techniques for Effective ...
  • [30] O. Hajipoor, et al., “Determine the Sentiment for Persian ...
  • نمایش کامل مراجع