مروری بر محاسبات موازی بر روی مجموعه داده های بزرگ مبتنی بر تکنیک MapReduce و Hadoop

شبنم, پاک پرور; فاطمه, امین صفایی اردکانی; فرناز, حسینی

مروری بر محاسبات موازی بر روی مجموعه داده های بزرگ مبتنی بر تکنیک MapReduce و Hadoop

عنوان مقاله: مروری بر محاسبات موازی بر روی مجموعه داده های بزرگ مبتنی بر تکنیک MapReduce و Hadoop
شناسه ملی مقاله: COMCONF05_500
منتشر شده در پنجمین کنفرانس بین المللی مهندسی برق و کامپیوتر با تاکید بر دانش بومی در سال 1396

مشخصات نویسندگان مقاله:

شبنم پاک پرور - دانشجوی کارشناسی ارشد موسسه آموزش عالی شهریار، گروه مهندسی کامپیوتر، ایران، آستارا
فاطمه امین صفایی اردکانی - دانشجوی کارشناسی ارشد موسسه آموزش عالی شهریار، گروه مهندسی کامپیوتر، ایران، آستارا
فرناز حسینی - عضو هیات علمی موسسه آموزش عالی شهریار، گروه مهندسی کامپیوتر، ایران، آستارا

خلاصه مقاله:

MapReduce یک تکنیک پردازش موازی در سیستمهای محاسباتی توزیع شده است. این تکنیک، دادهها را به قسمتهای کوچکتر تقسیم میکند و هر فرآیند نیز به دستورات کوچکتر شکسته میشود و گره های مختلف در سیستم های توزیع شده، بخشی از عملیات را بر مبنای این قسمتها مدیریت میکنند. در بخش اولیه این تکنیک از تقسیم داده ها برای خواندن اطلاعات ورودی و گرههای میانی استفاده میشود. سپس این دادهها برچسپ گذاری شده و در میان گرههای محاسباتی براساس استفاده از توابع درهم ساز توزیع شده و نتایج خود را به گره مرکزی انتقال میدهند. در بخش ثانویه این تکنیک نتیجه ی اصلی بر مبنای فرمت درست خروجی تولید میشود. تکنیک Hadoop نیز مدل برنامه نویسی ساده ای را مهیا میکند که کارآمدی مناسبی برای محاسبات دادههای بزرگ دارد. در این مطالعه موردی سه الگوریتم در حوزه MapReduce و چهار الگوریتم در حوزه Hadoop مورد بررسی و مقایسه قرار میگیرند. نتایج حاصل از این مطالعه نشان میدهد در هر دو مورد تکنیک مبتنی بر MapReduce توانسته تا حد امکان زمان و سرعت پردازش دادههایی با ابعاد بالا را بهبود بخشد.

کلمات کلیدی:

MapReduce، داده های بزرگ، Big Data، محاسبات موازی، Hadoop

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/725474/