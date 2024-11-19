يساعد MapReduce في تقسيم مشاريع معالجة البيانات إلى أجزاء أصغر حتى تتمكن من العمل بشكل أسرع.

قد يستغرق استخدام معالج واحد لتحليل ملف ضخم يحتوي على تيرابايتات أو بيتابايتات من البيانات، على سبيل المثال، 10 ساعات. يمكن لوظيفة MapReduce تقسيم ملف البيانات نفسه إلى 10 مهام تعمل بالتوازي على 10 معالجات. قد تستغرق هذه المهمة ساعة أو أقل لتشغيلها. يمكن تجميع البيانات من عقد الحوسبة الموزعة لإنتاج النتائج.

في حين أن رسم الخرائط والاختزال هما الوظيفتان الأساسيتان لنموذج MapReduce، فإن العملية الشاملة تتضمن بضع خطوات أخرى.

المدخلات





يقبل تطبيق MapReduce بيانات الإدخال، والتي يمكن أن تتضمن بيانات منظمة أو بيانات غير منظمة. تطبيقات MapReduce تعمل عادةً مع ملفات الإدخال المخزنة في نظام الملفات الموزعة Hadoop (HDFS)، ولكن يمكن أن يعمل النموذج مع مصادر البيانات الأخرى أيضًا. (لمزيد من المعلومات، راجع "MapReduce ضمن النظام البنائي Hadoop".)

بالنسبة لوظيفة معينة، يساعد إطار عمل MapReduce في تحديد الخوادم الموزعة وإدارة الاتصالات ونقل البيانات ودعم تحمل الأخطاء والتكرار.

التقسيم



يتم تقسيم بيانات الإدخال إلى كتل أصغر. يتم توزيع هذه الكتل على المُخطِّطات—وهي الدوال التي تقوم بالتخطيط في الخطوة التالية، والموجودة في عقد مختلفة. يهدف إطار عمل MapReduce إلى تخصيص موحد تقريبًا للبيانات عبر المُخطِّطات لتحقيق موازنة تحميل فعالة.

التخطيط



في كل عقدة، تعالج دالة الخريطة البيانات التي تتلقاها، وتحول البيانات إلى أزواج مفاتيح/قيمة.

يتم تحديد العدد الإجمالي للمُخطِّطات ضمن إطار عمل Hadoop، بناءً على الحجم الإجمالي للبيانات وكتل الذاكرة المتاحة على كل مخطط. يمكن تعيين معلمات المُخطِّطات والمُختزلات وتنسيقات الإخراج داخل مجموعة Hadoop العنقودية.



الخلط



يفرز إطار عمل Hadoop مخرجات الخريطة ويعين جميع أزواج المفاتيح/القيم التي لها نفس "المفتاح" (الموضوع) إلى نفس المُختزل. على سبيل المثال، في مجموعة بيانات المدن ودرجات حرارتها المرتفعة يوميًا، ستنتقل أي بيانات تحتوي على مفتاح "طوكيو" إلى نفس المُختزل.

المُختزل، كما يوحي اسمه، هو الدالة التي تنفذ خطوة الاختزال.

الاختزال



تقوم دوال الاختزال بمعالجة أزواج المفتاح/القيمة التي يصدرها المُخطِّطات. ويمكن أن يتضمن ذلك الدمج أو الجدولة أو إجراء عمليات أخرى على البيانات، اعتمادًا على نوع المعالجة المطلوبة.

يمكن إجراء التخطيط والاختزال على نفس مجموعة الخوادم، ولكن هذا أمر اختياري.

النتيجة



يقوم كل مُختزل بإخراج النتائج من معالجته إلى HDFS أو مخزن بيانات آخر.