آنالیز جنگل های تصادفی: یک روش آماری مدرن برای غربالگری در مطالعات با بعد بالا و کاربرد آن در یک مطالعه همبستگی ژنتیکی جمعیت-پایه

سال انتشار: 1390
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 53

فایل این مقاله در 10 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_NKUMS-3-5_009

تاریخ نمایه سازی: 29 دی 1402

چکیده مقاله:

چکیده زمینه و هدف: پیشرفت های سریع تکنولوژی قرن اخیر در زمینه مطالعات ژنتیکی ما را با حجم زیاد اطلاعات مواجه کرده و چالشی را در تحلیل این قبیل داده های با تعداد بسیار زیاد متغیر پیشگو بوجود آورده است. مطالعه حاضر با در نظر گرفتن داده ها با تعداد متغیرهای بسیار زیاد همراه با اثرات متقابل آنها که ممکن است در تحلیل آماری داده های ژنتیکی با آن مواجه شویم و با هدف بررسی روش های نوین برای تحلیل اینگونه داده های با بعد زیاد انجام پذیرفت. مواد و روش کار: در این مطالعه روش آماری ناپارامتری و نوین جنگل های تصادفی برای تعیین فاکتورهای مهم و اثرگذار ژنتیکی بر روی بیماری آنکیلوزان اسپوندیلیت بکار برده شد. داده ها حاوی اطلاعات مربوط به ژن HLA-B۲۷ و ۱۲ پلی مرفیسم تک نوکلئوتیدی ژنی موسوم به ERAP-۱ از ۴۰۱ بیمار مبتلا به آنکیلوزان اسپوندیلیت و ۳۱۶ کنترل سالم بود. تحلیل های فوق متعاقبا به کمک رگرسیون لجستیک نیز اجرا شد و نتایج آن با جنگل های تصادفی مقایسه گردید. یافته ها: بر اساس نتایج مدل رگرسیون لجستیک گام به گام متغیرهای HLA-B۲۷ و پلی مرفیسم rs۲۸۰۹۶ به طور معنی دار در ارتباط با بیماری مذکور بودند در حالیکه روش جنگل های تصادفی متغیرهای HLA-B۲۷ و rs۱۰۶۵۴۰۷ را متغیرهای اصلی اثرگذار روی این بیماری تشخیص داد و rs۲۸۰۹۶ در رتبه سوم اهمیت قرار داشت. نتیجه گیری: نتایج حاصل از این مطالعه حاکی از ارتباط زیاد HLA-B۲۷ با بیماری آنکیلوزان اسپوندیلیت بود. روش کلاسیک و متداول رگرسیون لجستیک پلی مرفیسم rs۲۸۰۹۶ را مهم ترین فاکتور خطر در رابطه با بیماری معرفی کرد در حالیکه روش جنگل های تصادفی rs۱۰۶۵۴۰۷ را نیز مهمترین پلی مرفیسم تشخیص داد. لذا محققین بایستی نتایج آماری حاصل از روش های متداول کلاسیک را با روش های جامع و کامل تر نوین از قبیل جنگل های تصادفی در مطالعات غربالگری مدنظر داشته باشند

کلیدواژه ها:

Key words: random forests ، High-dimensional data ، interaction ، logistic regression ، CART ، واژه های کلیدی: جنگل های تصادفی (RF) ، داده های بعد بالا ، اثرمتقابل ، رگرسیون لجستیک ، درخت

نویسندگان

سحر نوری

تخصصی آمار زیستی، گروه اپیدمیولوژی و آمار زیستی، دانشکده بهداشت و انستیتو تحقیقات بهداشتی، دانشگاه علوم پزشکی تهران، تهران، ایران

کرامت نوری جلیانی

دانشکده بهداشت و انستیتو تحقیقات بهداشتی، دانشگاه علوم پزشکی تهران ، تهران، ایران

کاظم محمد

دانشکده بهداشت و انستیتو تحقیقات بهداشتی، دانشگاه علوم پزشکی تهران، تهران، ایران

محمد حسین نیکنام

، مرکز تحقیقات ایمونولوژی ملکولی، دانشگاه علوم پزشکی تهران، تهران، ایران

مهدی محمودی

روماتولوژی و مرکز تحقیقات ایمونولوژی ملکولی، دانشگاه علوم پزشکی تهران، تهران، ایران

لاریس آندونیان

دانشکده بهداشت و انستیتو تحقیقات بهداشتی، دانشگاه علوم پزشکی تهران، تهران، ایران

آرش اکابری

دانشگاه علوم پزشکی خراسان شمالی، بجنورد، ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Foulkes AS, Applied Statistical Genetics With R For Population-based Association ...
  • Cardon LRaBJI, Association Study Designs for Complex Diseases, Nature ۲۰۰۱; ...
  • Glazier AM NJAT, Finding genes that underlie complex traits, Science ...
  • George EI MR, Variable Selection via Gibbs Sampling, Journal of ...
  • Oh C YKHQMN, Locating disease genes using Bayesian variable selection ...
  • Yi N GVAD, Stochastic search variable selection for identifying multiple ...
  • Province MA SWRD, Classification methods for confronting heterogeneity, Adv Genet ...
  • Hastie T TRFJ, The elements of statistical learning : data ...
  • Breiman L , Classification and regression trees CA, Wadsworth International ...
  • Braiman L, Random forests, Machine Learn ۲۰۰۱; ۴۵: p. ۵-۳۲. ...
  • Hosmer Dw LS, Applied Logistic Regression NewYork, John Wiley & ...
  • Genuer R PJMTC, Random Forest: some methodological insights ۲۰۰۸. ...
  • R Development Core Team R, A language and environment for ...
  • David H,” et al”, Investigating the genetic association between ERAP۱ ...
  • Schwender, HaIK, Identification of SNP interactions using logic regression ۲۰۰۸; ...
  • نمایش کامل مراجع