ما هو Apache Hadoop؟

Apache Hadoop هو إطار برمجي مفتوح المصدر تم تطويره من جانب دوغلاس كوتنج، الذي كان يعمل في Yahoo آنذاك، ويوفر معالجة موزعة موثوقة للغاية لمجموعات البيانات الكبيرة باستخدام نماذج برمجة بسيطة.

تغلبت Hadoop على قيود قابلية التوسع في Nutch، وهي مبنية على مجموعات من أجهزة الكمبيوتر السلعية، ما يوفر حلاً فعالاً من حيث التكلفة لتخزين كميات هائلة من البيانات المنظمة وشبه المنظمة وغير المنظمة من دون متطلبات التنسيق ومعالجتها.

يمكن أن توفر بنية بحيرة البيانات بما في ذلك Hadoop حلاً مرنًا لإدارة البيانات لمبادرات تحليلات البيانات الضخمة الخاصة بك. ونظرًا لأن Hadoop عبارة عن مشروع مفتوح المصدر ويتبع نموذج الحوسبة الموزعة، فإنه يمكن أن يوفر أسعارًا موفرة للميزانية لبرامج البيانات الضخمة وحلول التخزين.

يمكن أيضًا تثبيت Hadoop على خوادم سحابية لإدارة موارد الحوسبة والتخزين المطلوبة للبيانات الكبيرة بشكل أفضل. ولمزيد من السهولة، يتم تكوين وكيل نظام التشغيل Linux ووكيل UNIX OS ووكيل نظام التشغيل Windows مسبقًا ويمكن تشغيله تلقائيًا. يقدم كبار موردو السحابة مثل Amazon Web Services (AWS) و Microsoft Azure الحلول. يدعم Cloudera أحمال عمل Hadoop محليًا وفي السحابة، بما في ذلك خيارات لبيئة سحابية عامة واحدة أو أكثر من موردين متعددين. استخدم واجهات برمجة تطبيقات مراقبة Hadoop لإضافة المجموعات والخدمات وتحديثها وحذفها وعرضها على المجموعات، ولجميع أنواع المراقبة الأخرى على Hadoop.

أحدث الأخبار التقنية، مدعومة برؤى خبراء

ابقَ على اطلاع دائم على أبرز الاتجاهات في مجالات الذكاء الاصطناعي، والأتمتة، والبيانات، وغيرها الكثير من خلال رسالة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.

النظام البنائي لـ Hadoop

يتضمن إطار عمل Hadoop، الذي أنشأته مؤسسة Apache للبرمجيات، ما يلي:

Hadoop Common: الأدوات المساعدة والمكتبات الشائعة التي تدعم وحدات Hadoop الأخرى. يُعرف أيضًا باسم Hadoop Core.
Hadoop HDFS (نظام الملفات الموزعة Hadoop): نظام ملفات موزع لتخزين بيانات التطبيق على أجهزة السلع. وتم تصميم HDFS لتوفير قدرة التسامح مع الأخطاء لـ Hadoop ويوفر عرض نطاق ترددي إجماليًا عاليًا للبيانات ووصولاً عالي الإنتاجية إلى البيانات. يتم نسخ كتل البيانات عبر عقد متعددة في وقت التحميل أو الكتابة بشكل افتراضي. درجة التكرار قابلة للتكوين: درجة التكرار الافتراضي هي ثلاثة. تتميز بنية HDFS بـ NameNode لإدارة مساحة اسم نظام الملفات والوصول إلى الملفات و DataNodes متعددة لإدارة تخزين البيانات. ومن خلال تمكين التوافر العالي، يمكن استخدام عقدة ثانوية في حال تعطل عقدة نشطة.
Hadoop YARN: يُعد Apache Hadoop YARN مفتوح المصدر من Apache Hadoop YARN إطار عمل لجدولة المهام وإدارة موارد المجموعة التي يمكن استخدامها مع IBM^® Spectrum Symphony على Linux^® و Linux على POWER^®. YARN تعني مدير موارد آخر. وهو يدعم المزيد من أعباء العمل، مثل SQL التفاعلية والنمذجة المتقدمة والبث في الوقت الحقيقي.
Hadoop MapReduce: نظام قائم على YARN يخزن البيانات على مصادر متعددة ويعمل على المعالجة المتوازية لكميات كبيرة من البيانات. تتوفر تقنيات تحسين متعددة لـ MapReduce لتسريع الوظائف.
Hadoop Ozone: مخزن كائنات قابل للتوسع والتكرار والتوزيع مصمم لتطبيقات البيانات الضخمة.

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

انتقل إلى الحلقة

دعم مشاريع Apache

عزز Hadoop بمشاريع برامج إضافية مفتوحة المصدر.

Ambari

أداة قائمة على الويب لتوفير مجموعات Hadoop وإدارتها ومراقبتها.

Avro

نظام تسلسل البيانات.

Cassandra

قاعدة بيانات NoSQL قابلة للتوسع، مصممة بحيث لا تحتوي على نقطة إخفاق واحدة.

Chukwa

نظام جمع البيانات لرصد الأنظمة الموزعة الكبيرة؛ بنيت على رأس HDFS وMapReduce.

Flume

خدمة لجمع كميات كبيرة من البيانات المتدفقة وتجميعها ونقلها إلى HDFS.

HBase

قاعدة بيانات موزعة قابلة للتطوير وغير ارتباطية تدعم تخزين البيانات المنظمة للجداول الكبيرة للغاية.

Hive

بنية تحتية لمستودع البيانات للاستعلام عن البيانات وتخزين البيانات الوصفية للجداول والتحليل في واجهة تشبه SQL.

Mahout

مكتبة قابلة للتطوير للتعلم الآلي واستخراج البيانات.

Oozie

مُجدول عبء العمل المستند إلى Java لإدارة مهام Hadoop.

Pig

لغة تدفق بيانات عالية المستوى وإطار عمل تنفيذي للحوسبة المتوازية.

Sqoop

أداة لنقل البيانات بكفاءة بين Hadoop ومخازن البيانات المنظمة مثل قواعد البيانات العلائقية.

Submarine

منصة ذكاء اصطناعي موحدة لتشغيل التعلم الآلي وأحمال تشغيل التعلم العميق في مجموعة موزعة.

Tez

إطار برمجة عام لتدفق البيانات، قائم على YARN؛ ويجري اعتماده داخل نظام Hadoop البنائي ليحل محل MapReduce.

ZooKeeper

خدمة تنسيق عالية الأداء للتطبيقات الموزعة.

Hadoop للمطورين

تمت كتابة Apache Hadoop بلغة Java، ولكن بحسب مشروع البيانات الضخمة، يمكن للمطورين البرمجة باللغة التي يختارونها، مثل Python أو R أو Scala. تتيح الأداة المساعدة Hadoop Streaming المضمنة للمطورين إنشاء مهام MapReduce وتنفيذها باستخدام أي برنامج نصي أو قابل للتنفيذ كمُعيِّن أو مخفض.

مقارنة بين Spark وHadoop

غالبًا ما تتم المقارنة بين Apache Spark وHadoop لأنه أيضًا إطار عمل مفتوح المصدر لمعالجة البيانات الضخمة. في الواقع، تم تصميم Spark في البداية لتحسين أداء المعالجة وتوسيع أنواع العمليات الحسابية الممكنة باستخدام Hadoop MapReduce. يستخدم Spark معالجة داخل الذاكرة، ما يعني أنه أسرع بكثير من قدرات القراءة / الكتابة في MapReduce.

في حين أن Hadoop هو الأفضل لمعالجة كميات ضخمة من البيانات على دفعات ، فإن Spark يدعم كلاً من معالجة البيانات على دفعات وفي الوقت الفعلي وهو مثالي لتدفق البيانات وحسابات الرسوم البيانية. يحتوي كل من Hadoop وSpark على مكتبات للتعلم الآلي، ولكن مرة أخرى، بسبب المعالجة داخل الذاكرة، يكون التعلم الآلي في Spark أسرع بكثير.

حالات استخدام Hadoop

قرارات أفضل تعتمد على البيانات: دمج البيانات في الوقت الفعلي (بث الصوت والفيديو ومشاعر وسائل التواصل الاجتماعي وبيانات تدفق النقرات) وغيرها من البيانات شبه المنظمة وغير المنظمة غير المستخدمة في مستودع البيانات أو قاعدة البيانات العلائقية. توفر البيانات الأكثر شمولاً قرارات أكثر دقة.

تحسين الوصول إلى البيانات وتحليلها: تعزيز الوصول في الوقت الفعلي والخدمة الذاتية لعالم البيانات ومالكي خطوط الأعمال والمطورين. يمكن لـ Hadoop أن يغذي علم البيانات، وهو مجال متعدد التخصصات يستخدم البيانات والخوارزميات والتعلم الآلي والذكاء الاصطناعي للتحليل المتقدم للكشف عن الأنماط وبناء التنبؤات.

تفريغ البيانات وتوحيدها: تبسيط التكاليف في مراكز بيانات مؤسستك عن طريق نقل البيانات "الباردة" غير المستخدمة حاليًا إلى توزيع قائم على Hadoop للتخزين. أو دمج البيانات على مستوى المؤسسة لزيادة إمكانية الوصول وخفض التكاليف.

عرض ثلاثي الأبعاد لمجموعة من الرموز المصطفة مثل كاميرا ومقبض مستوى الصوت وحافظة

اقرأ دليل قادة البيانات لتتعرّف على كيفية تهيئة بيانات مؤسستك للذكاء الاصطناعي.

الموارد

عرض ثلاثي الأبعاد لعدة أيقونات مصطفة مثل الميكروفون والكاميرا

يعمل وكلاء الذكاء الاصطناعي على البيانات - فهل بياناتك جاهزة؟

بياناتك هي مصدر تفوّقك التنافسي. تعرّف في هذه الندوة عبر الإنترنت القصيرة على كيفية تأمين بياناتك واستثمارها بفعالية لتحقيق عائد استثمار ملموس من الذكاء الاصطناعي.

شرح إدارة البيانات

يشرح Techsplainers من IBM أساسيات البيانات المخصصة للذكاء الاصطناعي، بدءاً من المفاهيم الجوهرية وصولاً إلى حالات الاستخدام الواقعية. حلقات واضحة وقصيرة تساعدك على تعلُّم الأساسيات بسرعة.

عرض ثلاثي الأبعاد لعدة أيقونات مصطفة مثل مقبض مستوى الصوت والحافظة

توحيد بياناتك والوصول إليها لدعم توسُّع الذكاء الاصطناعي

تعرف على الأسباب التي تجعل الطريق نحو بيانات جاهزة للذكاء الاصطناعي يبدأ غالبًا بالوصول الفعال إلى كل من البيانات المنظمة وغير المنظمة، واكتشف التحديات التي قد تعيق قادة البيانات.

الأعباء القانونية تحوَّلت إلى رؤى استراتيجية

تعرف على كيفية مساعدة الوكيل القانوني المدعوم بالذكاء الاصطناعي في تسريع عملية اتخاذ القرار، وتقليل العمل اليدوي، وتحسين الامتثال.

رجلان يتحدثان مع بعضهما البعض في بودكاست

أكاديمية الذكاء الاصطناعي: وضع استراتيجية بيانات لدعم الذكاء الاصطناعي المؤسسي

في هذه الحلقة، تشرح Cathy Reese كيف أن المؤسسات اليوم بحاجة إلى استراتيجية بيانات مستعدة للذكاء الاصطناعي المتقدم، وهو الأمر الذي يتطلب منها تسخير أصول بياناتها ذات الجودة الأعلى.

عرض ثلاثي الأبعاد لعدة أيقونات مصطفة مثل الكاميرا والطائرات الورقية

مستودع البيانات الهجين المفتوح للذكاء الاصطناعي

تمكَّن من تبسيط الوصول إلى البيانات وأتمتة إدارة البيانات. اكتشف قوة دمج استراتيجية مستودع بحيرة البيانات في بنية بياناتك، بما في ذلك تحسين التكاليف لأعباء العمل وتوسيع نطاق الذكاء الاصطناعي والتحليلات لديك، باستخدام جميع بياناتك وفي أي مكان.

تقرير تكلفة خرق البيانات لعام 2025

سجَّلت حالات اختراق أمن البيانات ارتفاعًا غير مسبوق في تكاليف مواجهتها. احصل على أحدث الرؤى حول تهديدات الأمن السيبراني وتأثيراتها المالية على المؤسسات.

عرض ثلاثي الأبعاد لخطين من عدة أيقونات مثل كاميرا ومقبض مستوى الصوت وحافظة

دليل قادة البيانات للبيانات الجاهزة للذكاء الاصطناعي

تعرف على الخطوات العملية التي يمكن لقادة البيانات اتخاذها للتغلب على تحديات البيانات، وإرساء القواعد الأساسية لبناء قاعدة بيانات موثوقة، والمساعدة في تجهيز بيانات مؤسستك لعصر الذكاء الاصطناعي.

عرض ثلاثي الأبعاد لعدة أيقونات مصطفة مثل كاميرا ومقبض مستوى الصوت وحافظة

كيف تحوِّل الإدارة العليا المعلومات إلى تأثير

استكشف رؤى مستخلصة من 1700 من كبار مسؤولي البيانات في هذا التقرير متعدد القطاعات الموجّه إلى قادة البيانات.

حلول ذات صلة

برمجيات وحلول إدارة البيانات

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

استكشف حلول إدارة البيانات

IBM watsonx.data

يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.

اكتشف watsonx.data

خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة باستخدام IBM Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.

اكتشف خدمات التحليلات

اتخِذ الخطوة التالية

ما هو Apache Hadoop؟