ارائه یک روش اندازه گیری شباهت داده ها جهت بهینه سازی الگوریتم k-means به منظور خوشه بندی متون

حبیبه, کاظم زاده

ارائه یک روش اندازه گیری شباهت داده ها جهت بهینه سازی الگوریتم k-means به منظور خوشه بندی متون

عنوان مقاله: ارائه یک روش اندازه گیری شباهت داده ها جهت بهینه سازی الگوریتم k-means به منظور خوشه بندی متون
شناسه ملی مقاله: NCIRES01_063
منتشر شده در همایش ملی تحقیقات بین رشته ای در علوم مهندسی در سال 1396

مشخصات نویسندگان مقاله:

حبیبه کاظم زاده - دانش آموخته مقطع کارشناسی ارشد مهندسی کامپیوتر گرایش نرم افزار، موسسه آموزش عالی روزبهان

خلاصه مقاله:

در سال های اخیر با افزایش حجم اطلاعات و داده های متنی، مشکلات تازه ای برای کسانی که حوزه ی فعالیتشان درزمینه ی کار با داده بود به وجود آمد؛ بنابراین تحقیقات بسیاری درزمینه ی مدل کردن اطلاعات و استخراج دانش مفید از آن ها به عمل آمد. کاربران نیازمند ابزارهایی بودند تا با استفاده از آن ها به راحتی بتوانند اطلاعات مفید را از داده های موجود استخراج و استفاده کنند. خوشه بندی به عنوان یکی از مراحل پیش پردازش داده ها، یکی از فن های بسیار قدرتمند برای کشف گروه ها و وابستگی های طبیعی در یک مجموعه داده و همچنین شناخت الگوهای ساختاری و موضوعی موجود در آن، بدون داشتن هرگونه پیش زمینه ی شناختی در مورد ویژگی های داده ها می باشد. خوشه بندی اسناد متنی، به عنوان یکی از روش های یادگیری بدون ناظر، در زمینه های مختلف پردازش زبان های طبیعی از قبیل بازیابی اطلاعات، خلاصه سازی چندمتنی خودکار و سایر زمینه های مرتبط کاربرد گسترده ای دارد. اندازه گیری شباهت بین اسناد متنی مسئله ای مهم در خوشه بندی متون محسوب می شود. الگوریتم های خوشه بندی نیاز به یک متریک یا معیار برای اندازه گیری شباهت یا تعیین تفاوت دو سند تعریف شده دارند. این تفاوت ها اغلب با اندازه گیری مسافت داده ها از یکدیگر سنجیده می شوند. ازآنجایی که تشابه، رکن اصلی داده های موجود در یک خوشه هست، تعیین یک معیار تشابه در فضای ویژگی ها برای مجموعه داده های متنی که عموما حجم قابل توجهی دارند، امری ضروری برای فرآیندهای کلاسترینگ می باشد. در این پژوهش با بهره گیری از یک معیار دقیق جهت اندازه گیری شباهت بردارهای اسناد متنی (SMTP) و بهبود این معیار، خوشه بندی الگوریتم k-means برای اسناد متنی بهینه شده است. همچنین با بررسی مهم ترین معیارهای اندازه گیری شباهت از قبیل ضریب ژاکارد، فاصله ی اقلیدسی، فاصله ی منهتن و خوشه بندی بر اساس این معیارها، نتایج با روش پیشنهادی مقایسه شده است. بررسی آزمایش ها، بهتر شدن نتایج خوشه بندی k-means با معیار پیشنهادی را نشان می دهد.

کلمات کلیدی:

خوشه بندی متون، Clustering، K-Means، استخراج دانش، ویژگی های مشترک، داده کاوی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/968152/