Apache Hadoop هو إطار برمجي مفتوح المصدر تم تطويره من جانب دوغلاس كوتنج، الذي كان يعمل في Yahoo آنذاك، ويوفر معالجة موزعة موثوقة للغاية لمجموعات البيانات الكبيرة باستخدام نماذج برمجة بسيطة.
تغلبت Hadoop على قيود قابلية التوسع في Nutch، وهي مبنية على مجموعات من أجهزة الكمبيوتر السلعية، ما يوفر حلاً فعالاً من حيث التكلفة لتخزين كميات هائلة من البيانات المنظمة وشبه المنظمة وغير المنظمة من دون متطلبات التنسيق ومعالجتها.
يمكن أن توفر بنية بحيرة البيانات بما في ذلك Hadoop حلاً مرنًا لإدارة البيانات لمبادرات تحليلات البيانات الضخمة الخاصة بك. ونظرًا لأن Hadoop عبارة عن مشروع مفتوح المصدر ويتبع نموذج الحوسبة الموزعة، فإنه يمكن أن يوفر أسعارًا موفرة للميزانية لبرامج البيانات الضخمة وحلول التخزين.
يمكن أيضًا تثبيت Hadoop على خوادم سحابية لإدارة موارد الحوسبة والتخزين المطلوبة للبيانات الكبيرة بشكل أفضل. ولمزيد من السهولة، يتم تكوين وكيل نظام التشغيل Linux ووكيل UNIX OS ووكيل نظام التشغيل Windows مسبقًا ويمكن تشغيله تلقائيًا. يقدم كبار موردو السحابة مثل Amazon Web Services (AWS) و Microsoft Azure الحلول. يدعم Cloudera أحمال عمل Hadoop محليًا وفي السحابة، بما في ذلك خيارات لبيئة سحابية عامة واحدة أو أكثر من موردين متعددين. استخدم واجهات برمجة تطبيقات مراقبة Hadoop لإضافة المجموعات والخدمات وتحديثها وحذفها وعرضها على المجموعات، ولجميع أنواع المراقبة الأخرى على Hadoop.
يتضمن إطار عمل Hadoop، الذي أنشأته مؤسسة Apache للبرمجيات، ما يلي:
عزز Hadoop بمشاريع برامج إضافية مفتوحة المصدر.
أداة قائمة على الويب لتوفير مجموعات Hadoop وإدارتها ومراقبتها.
نظام تسلسل البيانات.
قاعدة بيانات NoSQL قابلة للتوسع، مصممة بحيث لا تحتوي على نقطة إخفاق واحدة.
نظام جمع البيانات لرصد الأنظمة الموزعة الكبيرة؛ بنيت على رأس HDFS وMapReduce.
خدمة لجمع كميات كبيرة من البيانات المتدفقة وتجميعها ونقلها إلى HDFS.
قاعدة بيانات موزعة قابلة للتطوير وغير ارتباطية تدعم تخزين البيانات المنظمة للجداول الكبيرة للغاية.
بنية تحتية لمستودع البيانات للاستعلام عن البيانات وتخزين البيانات الوصفية للجداول والتحليل في واجهة تشبه SQL.
مكتبة قابلة للتطوير للتعلم الآلي واستخراج البيانات.
مُجدول عبء العمل المستند إلى Java لإدارة مهام Hadoop.
لغة تدفق بيانات عالية المستوى وإطار عمل تنفيذي للحوسبة المتوازية.
أداة لنقل البيانات بكفاءة بين Hadoop ومخازن البيانات المنظمة مثل قواعد البيانات العلائقية.
منصة ذكاء اصطناعي موحدة لتشغيل التعلم الآلي وأحمال تشغيل التعلم العميق في مجموعة موزعة.
إطار برمجة عام لتدفق البيانات، قائم على YARN؛ ويجري اعتماده داخل نظام Hadoop البنائي ليحل محل MapReduce.
خدمة تنسيق عالية الأداء للتطبيقات الموزعة.
تمت كتابة Apache Hadoop بلغة Java، ولكن بحسب مشروع البيانات الضخمة، يمكن للمطورين البرمجة باللغة التي يختارونها، مثل Python أو R أو Scala. تتيح الأداة المساعدة Hadoop Streaming المضمنة للمطورين إنشاء مهام MapReduce وتنفيذها باستخدام أي برنامج نصي أو قابل للتنفيذ كمُعيِّن أو مخفض.
غالبًا ما تتم المقارنة بين Apache Spark وHadoop لأنه أيضًا إطار عمل مفتوح المصدر لمعالجة البيانات الضخمة. في الواقع، تم تصميم Spark في البداية لتحسين أداء المعالجة وتوسيع أنواع العمليات الحسابية الممكنة باستخدام Hadoop MapReduce. يستخدم Spark معالجة داخل الذاكرة، ما يعني أنه أسرع بكثير من قدرات القراءة / الكتابة في MapReduce.
في حين أن Hadoop هو الأفضل لمعالجة كميات ضخمة من البيانات على دفعات ، فإن Spark يدعم كلاً من معالجة البيانات على دفعات وفي الوقت الفعلي وهو مثالي لتدفق البيانات وحسابات الرسوم البيانية. يحتوي كل من Hadoop وSpark على مكتبات للتعلم الآلي، ولكن مرة أخرى، بسبب المعالجة داخل الذاكرة، يكون التعلم الآلي في Spark أسرع بكثير.
قرارات أفضل تعتمد على البيانات: دمج البيانات في الوقت الفعلي (بث الصوت والفيديو ومشاعر وسائل التواصل الاجتماعي وبيانات تدفق النقرات) وغيرها من البيانات شبه المنظمة وغير المنظمة غير المستخدمة في مستودع البيانات أو قاعدة البيانات العلائقية. توفر البيانات الأكثر شمولاً قرارات أكثر دقة.
تحسين الوصول إلى البيانات وتحليلها: تعزيز الوصول في الوقت الفعلي والخدمة الذاتية لعالم البيانات ومالكي خطوط الأعمال والمطورين. يمكن لـ Hadoop أن يغذي علم البيانات، وهو مجال متعدد التخصصات يستخدم البيانات والخوارزميات والتعلم الآلي والذكاء الاصطناعي للتحليل المتقدم للكشف عن الأنماط وبناء التنبؤات.
تفريغ البيانات وتوحيدها: تبسيط التكاليف في مراكز بيانات مؤسستك عن طريق نقل البيانات "الباردة" غير المستخدمة حاليًا إلى توزيع قائم على Hadoop للتخزين. أو دمج البيانات على مستوى المؤسسة لزيادة إمكانية الوصول وخفض التكاليف.
صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.
يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.
استفِد من قيمة بيانات المؤسسة باستخدام IBM Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.