ما هو MapReduce؟

امرأة تكتب تقرير أعمال في دفتر ملاحظات وتستخدم جهاز كمبيوتر محمول في مقهى

ما هو MapReduce؟

MapReduce هو نموذج برمجي يستخدم المعالجة المتوازية لتسريع معالجة البيانات على نطاق واسع. يتيح لك MapReduce قابلية التوسع الهائلة عبر مئات أو آلاف الخوادم داخل مجموعة Hadoop.

يشير الاسم "MapReduce" إلى المهمتين التي ينفذهما النموذج للمساعدة على "تقسيم" مهمة معالجة البيانات الكبيرة إلى العديد من المهام الأصغر التي يمكن تشغيلها بشكل أسرع بالتوازي.

الأول هو "مهمة رسم الخريطة"، والتي تأخذ مجموعة واحدة من البيانات وتحولها إلى مجموعة أخرى من البيانات بتنسيق أزواج مفاتيح/قيمة، مثل المدن (المفاتيح) ودرجات الحرارة المرتفعة اليومية (القيم).
والثاني هو "مهمة الاختزال"، التي تأخذ المخرجات من مهمة رسم الخريطة، وتجمع جميع القيم التي لها نفس المفتاح وتعالج البيانات لإنتاج مجموعة نهائية من أزواج المفاتيح/القيمة.

نموذج برمجة MapReduce هو أحد مكونات المعالجة الأساسية في صميم Apache Hadoop، وهو إطار عمل برمجي مفتوح المصدر تدعمه مؤسسة Apache Software Foundation ومبني على لغة البرمجة Java.

يمكن أيضًا استخدام نموذج MapReduce خارج Hadoop.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي  

تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية.

كيف يعمل MapReduce

يساعد MapReduce في تقسيم مشاريع معالجة البيانات إلى أجزاء أصغر حتى تتمكن من العمل بشكل أسرع.

قد يستغرق استخدام معالج واحد لتحليل ملف ضخم يحتوي على تيرابايتات أو بيتابايتات من البيانات، على سبيل المثال، 10 ساعات. يمكن لوظيفة MapReduce تقسيم ملف البيانات نفسه إلى 10 مهام تعمل بالتوازي على 10 معالجات. قد تستغرق هذه المهمة ساعة أو أقل لتشغيلها. يمكن تجميع البيانات من عقد الحوسبة الموزعة لإنتاج النتائج.

في حين أن رسم الخرائط والاختزال هما الوظيفتان الأساسيتان لنموذج MapReduce، فإن العملية الشاملة تتضمن بضع خطوات أخرى.

المدخلات

يقبل تطبيق MapReduce بيانات الإدخال، والتي يمكن أن تتضمن بيانات منظمة أو بيانات غير منظمة. تطبيقات MapReduce تعمل عادةً مع ملفات الإدخال المخزنة في نظام الملفات الموزعة Hadoop (HDFS)، ولكن يمكن أن يعمل النموذج مع مصادر البيانات الأخرى أيضًا. (لمزيد من المعلومات، راجع "MapReduce ضمن النظام البنائي Hadoop".)

بالنسبة لوظيفة معينة، يساعد إطار عمل MapReduce في تحديد الخوادم الموزعة وإدارة الاتصالات ونقل البيانات ودعم تحمل الأخطاء والتكرار.

التقسيم

يتم تقسيم بيانات الإدخال إلى كتل أصغر. يتم توزيع هذه الكتل على المُخطِّطات—وهي الدوال التي تقوم بالتخطيط في الخطوة التالية، والموجودة في عقد مختلفة. يهدف إطار عمل MapReduce إلى تخصيص موحد تقريبًا للبيانات عبر المُخطِّطات لتحقيق موازنة تحميل فعالة.

التخطيط

في كل عقدة، تعالج دالة الخريطة البيانات التي تتلقاها، وتحول البيانات إلى أزواج مفاتيح/قيمة.

يتم تحديد العدد الإجمالي للمُخطِّطات ضمن إطار عمل Hadoop، بناءً على الحجم الإجمالي للبيانات وكتل الذاكرة المتاحة على كل مخطط. يمكن تعيين معلمات المُخطِّطات والمُختزلات وتنسيقات الإخراج داخل مجموعة Hadoop العنقودية.

الخلط

يفرز إطار عمل Hadoop مخرجات الخريطة ويعين جميع أزواج المفاتيح/القيم التي لها نفس "المفتاح" (الموضوع) إلى نفس المُختزل. على سبيل المثال، في مجموعة بيانات المدن ودرجات حرارتها المرتفعة يوميًا، ستنتقل أي بيانات تحتوي على مفتاح "طوكيو" إلى نفس المُختزل.

المُختزل، كما يوحي اسمه، هو الدالة التي تنفذ خطوة الاختزال.

الاختزال

تقوم دوال الاختزال بمعالجة أزواج المفتاح/القيمة التي يصدرها المُخطِّطات. ويمكن أن يتضمن ذلك الدمج أو الجدولة أو إجراء عمليات أخرى على البيانات، اعتمادًا على نوع المعالجة المطلوبة.

يمكن إجراء التخطيط والاختزال على نفس مجموعة الخوادم، ولكن هذا أمر اختياري.

النتيجة

يقوم كل مُختزل بإخراج النتائج من معالجته إلى HDFS أو مخزن بيانات آخر.

مثال على MapReduce

بغض النظر عن كمية البيانات التي تريد المجموعة تحليلها، تظل المبادئ الأساسية كما هي.

في هذا المثال، تتضمن مجموعة البيانات المدن (المفاتيح) ودرجات الحرارة اليومية المقابلة (القيم) المسجلة لكل مدينة. قد يبدو نموذج زوج المفاتيح/القيم كما يلي: < تورنتو، 18 >.

تنتشر البيانات عبر ملفات متعددة. قد يتضمن كل ملف بيانات من مزيج من المدن، وقد يتضمن نفس المدينة عدة مرات.

ومن مجموعة البيانات هذه، يريد المستخدم تحديد "درجة الحرارة العظمى" لكل مدينة عبر الفترة التي تم تتبعها.

قد يبدو تنفيذ MapReduce للتعامل مع هذه المهمة كما يلي:

يتم إدخال ملفات البيانات التي تحتوي على معلومات درجة الحرارة إلى تطبيق MapReduce كمدخلات.
يتم تقسيم الملفات إلى مهام الخريطة، مع تعيين كل مهمة لأحد المُخطِّطات.
تقوم المُخطِّطات بتحويل البيانات إلى أزواج مفاتيح/قيم.
يتم خلط مخرجات الخريطة وفرزها بحيث تنتهي جميع القيم التي لها نفس مفتاح المدينة بنفس المُختزل. على سبيل المثال، تنتقل جميع قيم درجات الحرارة الخاصة بتورنتو إلى مُختزل واحد، بينما يقوم مُختزل آخر بتجميع جميع القيم الخاصة بلندن.
يعالج كل مُختزل بياناته لتحديد أعلى قيمة لدرجة الحرارة لكل مدينة. ثم يتم اختزال البيانات إلى أعلى زوج مفاتيح/قيم لكل مدينة.
بعد مرحلة الاختزال، يمكن جمع أعلى القيم للحصول على النتائج: <طوكيو، 38> < لندن، 27> < نيويورك، 33> < تورونتو، 32>.

مخطط مبسط باستخدام MapReduce لتحديد درجات الحرارة العالية لكل مدينة

مخطط مبسط يوضح كيف يساعد إطار عمل MapReduce في معالجة البيانات (انقر للتوسع)

MapReduce ضمن النظام البنائي Hadoop

نظام Hadoop البنائي عبارة عن مجموعة من الوحدات مفتوحة المصدر المصممة للعمل معًا لتعزيز الكفاءة. هناك وحدات تشكل إطار عمل Hadoop الرئيسي، بما في ذلك MapReduce بالإضافة إلى 3 وحدات أخرى:

نظام الملفات الموزعة Hadoop (HDFS)

HDFS هو نظام ملفات موزعة لتخزين بيانات التطبيقات على ما يصل إلى آلاف الخوادم السلعية.

تم تصميم HDFS لتوفير تحمل الأخطاء في Hadoop وتوفير وصول سريع إلى البيانات. يتم نسخ كتل البيانات عبر عقد متعددة في وقت التحميل أو الكتابة بشكل افتراضي.

تتميز بنية HDFS بوجود NameNode لإدارة مساحة اسم نظام الملفات والوصول إلى الملفات، بالإضافة إلى DataNodes متعددة لإدارة تخزين البيانات.

Yet Another Resource Negotiator (YARN)

Apache Hadoop مفتوح المصدر، YARN، هو إطار عمل لجدولة الوظائف وإدارة موارد المجموعة. فهو يدعم أحمال تشغيل متعددة، مثل استعلامات SQL والنمذجة المتقدمة والبث في الوقت الفعلي.

Hadoop Common

هذه الوحدة عبارة عن مجموعة من أدوات الموارد والمكتبات التي تدعم وحدات Hadoop الأخرى. وتُعرف أيضًا باسم Hadoop Core، وتتضمن موارد متعددة للتعافي التلقائي من الأعطال، والتجريد على مستوى نظام الملفات وعلى مستوى نظام التشغيل، وملفات أرشيف Java (JAR) والبرامج النصية، بالإضافة إلى المزيد.

وحدات أخرى

بالإضافة إلى إطار عمل Hadoop الرئيسي، يشمل نظام Hadoop البنائي أيضًا:

HBase (قاعدة بيانات NoSQL غير علائقية)
Mahout و Spark MLlib (مكتبات خوارزميات للتعلم الآلي)
Oozie (برنامج جدولة الوظائف)
Apache Hive و Apache Pig (أدوات معالجة البيانات القائمة على الاستعلام)
Solr و Lucene (للبحث والفهرسة)
Spark (محرك معالجة البيانات في الذاكرة)
Zookeeper (تنسيق المجموعة)

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

انتقل إلى الحلقة

فوائد MapReduce

توفر برمجة MapReduce العديد من الفوائد التي يمكن أن تساعد المؤسسة في اكتساب رؤى قيّمة من تحليلات البيانات الكبيرة، مثل:

قابلية التوسع: يتيح MapReduce للمجموعة معالجة بيتابايتات من البيانات المخزنة في HDFS عبر خوادم أو عقد متعددة.
معالجة أسرع: بفضل المعالجة المتوازية والحد الأدنى من حركة البيانات، يوفر MapReduce تحسين معالجة البيانات الكبيرة لكميات هائلة من البيانات.
التبسيط: يمكن للمطورين كتابة تطبيقات MapReduce في لغات البرمجة التي يختارونها، بما في ذلك Java و C++ و Python.
توفير التكاليف: باعتباره برنامجاً مصدر مفتوح، يمكن لـ MapReduce أن يوفر للمؤسسة بعض التكاليف في نفقات البرمجيات. ومع ذلك، ستظل هناك تكاليف مرتبطة بموظفي البنية التحتية وهندسة البيانات.

حالات استخدام MapReduce

يمكن لـ MapReduce التعامل بكفاءة مع العديد من حالات الاستخدام المباشرة، على الرغم من أن مهام معالجة البيانات المعقدة قد تعمل بشكل أسرع على التطبيقات الأخرى. فيما يلي بعض التطبيقات المناسبة لنهج المعالجة المتوازية لـ MapReduce:

تكامل البيانات، حيث يتم استخدام إطار عمل MapReduce لتشغيل عملية الاستخراج والتحويل والتحميل (ETL) لإعداد البيانات للتحليل والتخزين.
معالجة الصور، حيث يمكن تقسيم المهام مثل تصنيف الصور إلى مجموعات بيانات أصغر ومعالجتها بالتوازي.
تحليل السجل، مثل تحديد الاتجاهات من خلال مراجعات ملفات السجل من خوادم الويب أو التطبيقات.
التعلم الآلي (ML)، حيث يمكن أن يساعد MapReduce في مهام التدريب على التعلم الآلي، مثل الفلترة التعاونية والتجميع بالمتوسطات والانحدار الخطي.
تحليل المشاعر، حيث يمكن لـ MapReduce المساعدة في جمع نقاط العملاء على موقع ويب أو تحديد مجموعات الاستجابة، على سبيل المثال.
الجدولة، مثل إحصاء عدد العملاء الذين جددوا حساباتهم، حسب الدولة، خلال العام الماضي.
استخراج النصوص، مثل وظائف عدّ الكلمات التي تتعقّب عدد مرات ظهور كلمة معيّنة في مجموعة مدخلات معيّنة، مثل لوحة تعليقات.

تاريخ MapReduce

تم إنشاء نموذج برمجة MapReduce في عام 2004 من قِبل عالِمَي الحاسوب في Google وهما Jeffery Dean و Sanjay Ghemawat. يهدف نموذج MapReduce إلى تبسيط تحويل وتحليل مجموعات البيانات الضخمة من خلال المعالجة الموازية الضخمة على مجموعات كبيرة من الأجهزة السلعية. ويتيح للمبرمجين التركيز على الخوارزميات بدلاً من إدارة البيانات.

بينما قدمت جوجل أول إطار عمل MapReduce، ربما يكون Apache Hadoop MapReduce هو الأكثر شعبية.

لقد أدى MapReduce دورًا رئيسيًا في تطوير تحليلات البيانات الكبيرة، ولكن له عيوبه. على سبيل المثال، لا يتم عادةً الاحتفاظ بالبيانات في الذاكرة بواسطة MapReduce، ولا يمكن تحقيق المنطق التكراري إلا من خلال ربط تطبيقات MapReduce معًا. وتضيف هذه العوامل تعقيدًا أكبر ويمكن أن تؤدي إلى إطالة أوقات المعالجة.

بينما لا يزال MapReduce مستخدمًا على نطاق واسع—خاصةً في الأنظمة القديمة—تنتقل العديد من المؤسسات إلى أطر عمل أسرع أو أكثر تخصصًا، مثل Apache Spark، لتطبيقات البيانات الكبيرة.

تصنيف IBM كشركة رائدة في تقرير Forrester Wave حول منصات التكامل كخدمة، للربع الثالث من عام 2025.

اقرأ التقرير لتعرف سبب تصنيف IBM كشركة رائدة في تقرير Forrester وحصولها على أعلى درجة في فئة العروض الحالية. تعرَّف على كيفية مساهمة هذه الريادة في تعزيز IBM webMethods MFT من خلال توفير نقل ملفات آمن وقابل للتوسع ضمن استراتيجية تكامل مؤسسية أوسع.

الموارد

إدارة البيانات للذكاء الاصطناعي والتحليلات على نطاق واسع

تعرَّف على كيفية مساهمة نهج مستودع بحيرة البيانات المفتوحة في تقديم بيانات موثوق بها وتنفيذ مشاريع التحليلات والذكاء الاصطناعي بشكل أسرع.

تقرير Magic Quadrant من Gartner لعام 2024 لأدوات تكامل البيانات

تم اختيار IBM كشركة رائدة للعام التاسع عشر على التوالي في تقرير Magic Quadrant من Gartner لعام 2024 لأدوات تكامل البيانات.

مفاضل البيانات

استكشف دليل قائد البيانات لإنشاء مؤسسة قائمة على البيانات وتعزيز ميزة الأعمال.

زيادة تبني الذكاء الاصطناعي باستخدام بيانات جاهزة للذكاء الاصطناعي

تعرَّف على أهمية الذكاء الاصطناعي المدعوم بالبيانات ودمج البيانات في تحضير البيانات المنظمة وغير المنظمة وتسريع نتائج الذكاء الاصطناعي.

مستودع البيانات الهجين المفتوح للذكاء الاصطناعي

تمكَّن من تبسيط الوصول إلى البيانات وأتمتة إدارة البيانات. اكتشف قوة دمج استراتيجية مستودع بحيرة البيانات في بنية بياناتك، بما في ذلك تحسين التكاليف لأعباء العمل وتوسيع نطاق الذكاء الاصطناعي والتحليلات لديك، باستخدام جميع بياناتك وفي أي مكان.

منشورات إدارة البيانات من IBM Research

اكتشف كيف يتم دمج IBM Research بانتظام في الميزات الجديدة لبرنامج IBM Cloud Pak for Data.

توقعات Gartner لعام 2024: كيف سيؤثِّر الذكاء الاصطناعي في مستخدمي التحليلات

احصل على رؤى فريدة حول تطور مشهد الحلول في مجال التحليلات وذكاء الأعمال (ABI)، مع تسليط الضوء على النتائج الرئيسية، والافتراضات، والتوصيات لقادة البيانات والتحليلات.

حلول ذات صلة

برمجيات وحلول إدارة البيانات

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

استكشف حلول إدارة البيانات

IBM watsonx.data

يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.

اكتشف watsonx.data

خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة باستخدام IBM Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.

اكتشف خدمات التحليلات

اتخِذ الخطوة التالية

استكشف حلول إدارة البيانات

اكتشف watsonx.data