PerBOLD: A Big Dataset of Persian Offensive language on Instagram Comments

سال انتشار: 1402
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 161

فایل این مقاله در 10 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_TJEE-53-2_007

تاریخ نمایه سازی: 27 تیر 1402

چکیده مقاله:

Easy access to social media enables users to express their opinions and ideology about various topics like news, videos, and personalities freely, without any fear, and often in an offensive manner. It is a vital task to detect comments with offensive language on social media platforms and relies on a complete and comprehensive tagged dataset. Therefore, in this paper, we introduce and make publicly available PerBOLD, a new Persian comment dataset collected from Instagram as a popular platform among Iranian. We follow a two-level manual annotation process in order to determine whether a comment has offensive language or not and fine-grained tags of different types of offensive language. Furthermore, we present some interesting aspects of data and analysis them.

کلیدواژه ها:

Keywords Natural language processing ، offensive language ، social media ، annotation

نویسندگان

مریم خدابخش

Faculty of Computer Engineering, Shahrood University of Technology, Shahrood, Iran.

فاطمه جعفری نژاد

Faculty of Computer Engineering, Shahrood University of Technology, Shahrood, Iran.

مرضیه رحیمی

Faculty of Computer Engineering, Shahrood University of Technology, Shahrood, Iran.

مسعود قیومی

Institute for Humanities and Cultural Studies, Ghom, Iran.

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • F. Ghanbari, M. Rahmani, "Presenting a Semantic Orientation Based Method ...
  • DynamicEvoStream: An EvoStream based Algorithm for Dynamically Determining The Number of Clusters in Data Streams [مقاله ژورنالی]
  • H. Mulki, H. Haddad, C. B. Ali, H. Alshabani, "L-hsab: ...
  • C. Nobata, J. Tetreault, A. Thomas, Y. Mehdad, Y. Chang, ...
  • A. M. Founta, C. Djouvas, D. Chatzakou, I. Leontiadis, J. ...
  • P. Liu, J. Guberman, L. Hemphill, A. Culotta, "Forecasting the ...
  • R. Sprugnoli, S. Menini, S. Tonelli, F. Oncini, E. Piras, ...
  • H. Zhong, H. Li, A. C. Squicciarini, S. M. Rajtmajer, ...
  • J. Qian, A. Bethke, Y. Liu, E. Belding, W. Y. ...
  • O. De Gibert, N. Perez, A. García-Pablos, M. Cuadros, "Hate ...
  • Ò. G. i Orts, "Multilingual detection of hate speech against ...
  • M. A. Bashar, R. Nayak, K. Luong, T. Balasubramaniam, "Progressive ...
  • X. Huang, L. Xing, F. Dernoncourt, M. J. Paul, "Multilingual ...
  • P. Fortuna, J. R. da Silva, L. Wanner, S. Nunes, ...
  • M. Zampieri, S. Malmasi, P. Nakov, S. Rosenthal, N. Farra, ...
  • G. Kennedy, A. McCollough, E. Dixon, A. Bastidas, J. Ryan, ...
  • M. Wiegand, M. Siegel, J. Ruppenhofer, "Overview of the germeval ...
  • I. Markov, N. Ljubešić, D. Fišer, W. Daelemans, "Exploring stylometric ...
  • F. Alves Vargas, I. Carvalho, F. Rodrigues de Góes, F. ...
  • M. Wiegand, M. Siegel, J. Ruppenhofer, "Overview of the germeval ...
  • P. Alavi, P. Nikvand, M. Shamsfard, "Offensive Language Detection with ...
  • M. Mozafari, "Hate speech and offensive language detection using transfer ...
  • A. Hande, R. Priyadharshini, B. R. Chakravarthi, "KanCMD: Kannada CodeMixed ...
  • S. A. Chowdhury, H. Mubarak, A. Abdelali, S.-g. Jung, B. ...
  • N. Romim, M. Ahmed, M. Islam, A. S. Sharma, H. ...
  • S. Alsafari, S. Sadaoui, M. Mouhoub, "Hate and offensive speech ...
  • M. Zampieri, S. Malmasi, P. Nakov, S. Rosenthal, N. Farra, ...
  • M. J. Díaz-Torres, P. A. Morán-Méndez, L. Villasenor-Pineda, M. Montes, ...
  • R. Hada, S. Sudhir, P. Mishra, H. Yannakoudakis, S. M. ...
  • Ç. Çöltekin, "A corpus of Turkish offensive language on social ...
  • نمایش کامل مراجع