پردازش وطبقه بندی دادههای حجیم نامتعادل برای پیش بینی ساختار پروتیینها

سال انتشار: 1396
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 507

فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

DCBDP03_058

تاریخ نمایه سازی: 14 شهریور 1396

چکیده مقاله:

محققین و دانشمندان بر این باورند در دادههای خام دانشی نهفته است که میتواند تحولی عظیم در تصمیمات خرد و کلان جهانی ایجاد نماید. این دادهها نیاز به تحلیل و مدیریت برای استخراج دانش خواهد داشت. از اینرو تکنیکهای داده کاوی و یادگیری ماشین به یک جنبه مهم در مسایل زیستی بویژه علم بایوانفورماتیک بدل شده است. از طرفی با پیشرفت سریع تکنولوژی اطلاعات بسیار زیادی در خصوص سلولها، پروتیینها، ژنها و غیره بدست آمده و در بانکهای اطلاعاتی مربوطه ذخیره شده اند.در این مقاله سعی شده است تا از اطلاعات با ارزش موجود در بانک پروتیینها استفاده شود تا به پیش بینی دقیقتر و سریعتر ساختار آنها دست یابیم. برای این منظور مجموعه دادهای از نقشه تماس پروتیینها تهیه میشود که ذاتا، به شدت نامتعادل و حجیم است. در نتیجه الگوریتمها و روشهای معمول کارامد نیستند. بنابراین روشی ارایه شده است تا با استفاده از مدل برنامه نویسی موازی نگاشت-کاهش در بستر توزیع شده، با کارایی بالا بر این چالش فایق آییم. نتایج بدست آمده از مقایسه با بهترین روشهای کنونی حاکی از آن است که در تعداد مشخص از نگاشتها شاهد افزایش معنا دار در کارایی (10 (%و تا حدی کاهش در زمان اجرا بودهایم. این ارزیابی با معیارهای میانگین هندسی (GM (و AUC صورت گرفته که سنجههای بسیار مناسبی برای دادههای نامتعادل هستند. از آزمون آماری test-t نیز برای معنادار بودن تفاوت نتایج بهره گرفته شده است.

نویسندگان

پوریا محمدعلمی

دانشجوی کارشناسی ارشد، گروه کامپیوتر نرم افزار، دانشگاه بین المللی امام رضا (ع)، مشهد

عادل قاضی خانی

هییت علمی دانشکده مهندسی کامپیوتر، گروه کامپیوتر نرم افزار، دانشگاه بین المللی امام رضا(ع)مشهد

وحید فاضلی نیا

دانشجوی کارشناسی ارشد، گروه کامپیوتر نرم افزار، دانشگاه بین المللی امام رضا(ع)مشهد