Apache Hadoop è un framework software open source sviluppato da Douglas Cutting, allora in Yahoo, che fornisce l'elaborazione distribuita altamente affidabile di set di dati di grandi dimensioni utilizzando semplici modelli di programmazione.
Hadoop ha superato i limiti di scalabilità di Nutch e si basa su cluster di computer di largo consumo, fornendo una soluzione conveniente per la memorizzazione e l'elaborazione di enormi quantità di dati strutturati, semi-strutturati e non strutturati senza requisiti di formato.
Un'architettura di data lake che includa Hadoop può offrire una soluzione flessibile di gestione dei dati per le iniziative di analytics dei big data. Poiché Hadoop è un progetto open source e segue un modello di calcolo distribuito, può offrire prezzi convenienti per un software e una soluzione di storage per i big data.
È inoltre possibile installare Hadoop su server cloud per gestire meglio le risorse di calcolo e di storage necessarie per i big data. Per maggiore praticità, l'agente del sistema operativo Linux, l'agente del sistema operativo UNIX e l'agente del sistema operativo Windows sono preconfigurati e possono essere avviati automaticamente. I principali fornitori di servizi cloud, come Amazon Web Services (AWS) e Microsoft Azure, offrono delle soluzioni. Cloudera supporta i workload Hadoop sia on-premise sia nel cloud, comprese le opzioni per uno o più ambienti cloud pubblici di più fornitori. Utilizza le API di monitoraggio Hadoop per aggiungere, aggiornare, eliminare e visualizzare i cluster e i servizi sui cluster e per tutti gli altri tipi di monitoraggio su Hadoop.
Scopri la potenza dell'integrazione di una strategia data lakehouse nella tua architettura dei dati, compresi i miglioramenti per scalare l'AI e le opportunità di ottimizzazione dei costi.
Registrati per il white paper sulla governance dell'AI
Il framework Hadoop, creato dalla Apache Software Foundation, comprende:
Migliora Hadoop con altri progetti software open source.
Uno strumento basato sul web per il provisioning, la gestione e il monitoraggio dei cluster Hadoop.
Un sistema di serializzazione dei dati.
Un database NoSQL scalabile e progettato per non avere singoli punti di errore.
Un sistema di raccolta dati per il monitoraggio di grandi sistemi distribuiti, costruito su HDFS e MapReduce.
Un servizio per la raccolta, l'aggregazione e lo spostamento di grandi quantità di dati in streaming in HDFS.
Un database distribuito, scalabile e non relazionale che supporta lo data storage strutturato per tabelle molto grandi.
Un'infrastruttura di data warehouse per l'interrogazione dei dati, lo storage dei metadati per le tabelle e l'analisi in un'interfaccia simile a SQL.
Una libreria scalabile per il machine learning e il data mining.
Un sistema di pianificazione dei workload basato su Java per gestire i lavori Hadoop.
Un linguaggio ad alto livello per il flusso di dati e un framework di esecuzione per il calcolo parallelo.
Uno strumento per trasferire in modo efficiente i dati tra Hadoop e gli archivi di dati strutturati come i database relazionali.
Una piattaforma AI unificata per l'esecuzione di workload di machine learning e deep learning in un cluster distribuito.
Un framework generalizzato per la programmazione dei flussi di dati, costruito su YARN; è in fase di adozione nell'ecosistema Hadoop per sostituire MapReduce.
Un servizio di coordinamento ad alte prestazioni per applicazioni distribuite.
Apache Hadoop è stato scritto in Java, ma a seconda del progetto specifico sui big data gli sviluppatori possono programmare in un linguaggio a loro scelta come Python, R o Scala. È incluso Hadoop Streaming Utility che consente agli sviluppatori di creare ed eseguire lavori MapReduce con qualsiasi script o file eseguibile come il mapper o il reducer.
Apache Spark è spesso paragonato ad Hadoop in quanto è anch'esso un framework open source per l'elaborazione dei big data. In effetti, Spark è stato inizialmente sviluppato per migliorare le prestazioni di elaborazione ed estendere i tipi di calcolo possibili con Hadoop MapReduce. Spark utilizza l'elaborazione in memoria, il che significa che è molto più veloce rispetto alle capacità di lettura/scrittura di MapReduce.
Mentre Hadoop è ideale per l'elaborazione in batch di enormi volumi di dati, Spark supporta il trattamento dei dati sia in batch che in tempo reale ed è ideale per lo streaming dei dati e i calcoli basati su grafi. Sia Hadoop che Spark dispongono di librerie di machine learning, ma ancora una volta, grazie all'elaborazione in memoria, le attività di machine learning di Spark sono molto più veloci.
Migliori decisioni basate sui dati: integra dati in tempo reale (streaming audio, video, sentiment dei social media e dati di clickstream) e altri dati semi-strutturati e non strutturati non utilizzati in un data warehouse o in un database relazionale. Una maggiore completezza dei dati consente di prendere decisioni più accurate.
Migliore accesso ai dati e analisi più efficaci: promuovi l'accesso self-service in tempo reale per i data scientist, i proprietari delle linee di business (LOB) e gli sviluppatori. Hadoop può alimentare la data science, un campo interdisciplinare che utilizza dati, algoritmi, machine learning e AI per eseguire analisi avanzate utili per rivelare modelli e costruire previsioni.
Offload e consolidamento dei dati: ottimizza i costi dei data center aziendali spostando i dati "freddi" non in uso in una distribuzione basata su Hadoop per lo storage. Oppure consolida i dati in tutta l'organizzazione per aumentare l'accessibilità e ridurre i costi.
Supporta l'analytics predittiva e prescrittiva per l'AI attuale. Combina la distribuzione Hadoop di livello enterprise di Cloudera con un unico ecosistema di prodotti e servizi integrati di IBM e Cloudera per migliorare la data discovery, i test e le query ad hoc e in tempo quasi reale. Sfrutta la collaborazione tra IBM e Cloudera per implementare soluzioni Hadoop aziendali.
Sfrutta un motore SQL-on-Hadoop di livello enterprise, ibrido e conforme ad ANSI, che consente l'MPP (Massively Parallel Processing) e l'esecuzione di query avanzate sui dati.
Replica i dati durante lo streaming, in modo da non dover scrivere o chiudere completamente i file prima del trasferimento.
Sfrutta in modo più conveniente i big data con i database open source di fornitori leader come MongoDB e EDB.
Scopri come stanno promuovendo l'analytics avanzata con un data lake di livello enterprise sicuro, governato e basato sull'open source.
Aggiungi un data lake alla strategia di gestione dei dati per integrare un maggior numero di dati non strutturati e ottenere insight più approfonditi.
Esplora le tecnologie di archiviazione e governance necessarie affinché il data lake aziendale possa fornire dati pronti per l'AI.
Scopri come sia possibile migliorare l'integrazione, la qualità e la sicurezza dei data lake sfruttando soluzioni di governance collaudate.
Scegli il tuo percorso di apprendimento in base al livello di competenza con i corsi gratuiti su data science, AI, big data e altro ancora.
Entra a far parte della comunità IBM sulla gestione dei dati open source per collaborare, ottenere risorse e altro ancora.