Astronomer with IBM: aggiorna il suo ambiente Airflow con scalabilità, sicurezza e supporto di livello aziendale

illustrazione blu del pianeta Terra

Autore

BJ Adesoji

Product Manager, Databand.ai, Astronomer with IBM

IBM

IBM ha recentemente annunciato la sua collaborazione con Astronomer, un software Apache Airflow di livello aziendale, per promuovere e scalare l'adozione di Airflow all'interno delle aziende. La rapida espansione dei casi d'uso di Airflow, inclusi i workload MLOps e workflow di GenAi, oltre alla moderna data ingestion e orchestrazione dei dati, ha portato a più di 31 download mensili. Probabilmente Airflow open-source è attualmente utilizzato nella tua azienda da più team che di occupano di analytics e operazioni aziendali. Perché la tua azienda dovrebbe passare da Airflow ad Astronomer with IBM? Quattro motivi principali: scalabilità, sicurezza, supporto e resilienza della distribuzione.

Per comprendere questa risposta, parleremo di una recente storia di un cliente bancario statunitense sul passaggio da un pianificatore di dati legacy ad Airflow e, infine, sulla scelta di Astronomer with IBM.

Diagramma che mostra il software Astronomer with IBM

Da Airflow open source ad Astronomer with IBM

Il programmatore di dati standardizzati di un nostro cliente bancario statunitense non riusciva a soddisfare le sue esigenze DataOps. Il nuovo ambiente del cliente, incentrato sul cloud, e i report normativi in costante evoluzione creavano problemi a molti team che cercavano di soddisfare le loro esigenze di pianificazione. Il pianificatore esistente non era ottimizzato per l'uso del cloud e mancava della flessibilità necessaria per accogliere pianificazioni personalizzate non basate su un calendario.

Di conseguenza, diversi team hanno iniziato a esplorare Airflow, che fornisce funzionalità di orchestrazione dei flussi di lavoro programmatici e compatibili con il cloud per i loro limitati casi d'uso analitici e di reporting. Tuttavia, quando questi workflow e pipeline hanno iniziato a espandersi su più progetti e team, il nostro cliente ha riscontrato nuovi problemi. Airflow ha richiesto aggiustamenti manuali per scalare e le integrazioni hanno causato rischi per la sicurezza e il supporto, portando a preoccupazioni sulla resilienza complessiva per questi requisiti DataOps critici.

È qui che Astronomer with IBM viene in aiuto: Astronomer with IBM ha aggiornato il proprio ambiente Airflow per soddisfare le esigenze aziendali in termini di scalabilità, sicurezza, supporto e resilienza della distribuzione.

Necessità 1: scalabilità a livello aziendale

Astronomer with IBM migliora Airflow con molteplici funzionalità per supportare un'implementazione su scala aziendale centralizzata che aumenta l'efficienza operativa.

Alcune di queste caratteristiche esclusive sono:

  • Airflow multi-tenant: massimizza l'utilizzo delle risorse e l'efficienza operativa con ambienti Airflow isolati che hanno comunicazioni tra implementazioni.
  • Aggiornamenti sul posto e utility di aggiornamento: aggiorna Airflow preservando DAG, configurazioni e dati per ridurre al minimo i tempi di inattività.
  • Rollback dell'implementazione: può facilmente ripristinare le implementazioni Airflow a qualsiasi versione o implementazione di codice precedente.
  • DB Archival: utilizza i processi di archiviazione automatizzati e basati su API per il database Airflow.
  • Esportatore di log universale: metodologia sidecar vettoriale per trasferire i log su più sistemi esterni supportati.

Necessità 2: sicurezza robusta, di livello aziendale

Il pianificatore originale del cliente non supportava la sicurezza basata sul cloud, il che limitava la sua capacità di utilizzare gli asset di dati basati sul cloud. Ciò ha portato a inefficienze operative e a un aumento dei rischi per la sicurezza, poiché i team hanno iniziato ad aggirare queste limitazioni.

Di conseguenza, Airflow è emerso come l'orchestratore preferito da più team grazie alla sua compatibilità con gli ambienti cloud. Tuttavia, con l'aumentare del numero di progetti e team Airflow, sono emerse sfide significative. Non esisteva un metodo centralizzato per il provisioning sicuro di Airflow in tutta l'azienda.

Astronomer with IBM ha fornito loro una robusta sicurezza di livello aziendale, con caratteristiche come:

  • Sicurezza multi-tenant: spazi isolati Role Based Access Control (RBAC) nelle aree di lavoro, nelle implementazioni e a livello di sistema per i DAG.
  • SSO [OIDC/SCIM]: supporto OIDC e SCIM per l'autenticazione basata su eventi e la rimozione automatica di utenti e team.
  • Cloud Identity: integrazione delle implementazioni con i meccanismi di identità cloud-native (gestione delle identità e degli accessi AWS e GKE Workload Identity).

Esigenza 3: supporto e resilienza della distribuzione

Il pianificatore originale utilizzato dal cliente non aveva la visibilità e la gamma di integrazioni necessarie ai moderni team dei dati per gestire e monitorare in modo efficace i processi e gli errori. Insieme alla sua ripida curva di apprendimento, lo scheduler non forniva la resilienza necessaria per migliorare la produttività degli sviluppatori.

Airflow ha dimostrato di essere una valida alternativa al loro precedente pianificatore; tuttavia, i problemi continuano a sorgere perché Airflow non dispone del supporto necessario per risolvere rapidamente i problemi e ridurre al minimo i tempi di inattività. Il cliente ha optato per Astronomer in collaborazione con IBM per le caratteristiche uniche di Astronomer, come ad esempio:

  • Visibilità e stato di salute tra le distribuzioni: ottieni una visibilità completa dei DAG e dei metadati in tutte le distribuzioni Airflow.
  • Avvisi incentrati sui dati: configura gli avvisi per l'esecuzione dei DAG e gli stati delle attività, con la ricezione di notifiche in tempo reale tramite SMTP o SMS.
  • Ciclo di vita della registrazione: archiviazione di registrazioni basata su ElasticSearch con processi di pulizia esterni di esportazione e conservazione.
  • Conservazione delle metriche: conservazione delle Prometheus Metrics per tutte le implementazioni Airflow.
  • Supporto di Airflow: Astronomer gestisce il 100% delle versioni Airflow e scrive circa il 60% del codice Airflow. Il suo supporto di Airflow non ha eguali.

Alla fine, la decisione del team di passare dal pianificatore legacy ad Astronomer ha aiutato a ottenere maggiore visibilità sui workload e a ridurre i tempi di esecuzione del 20%. Inoltre, i clienti migliorano la loro resilienza nell'implementazione con Data Observability by Databand di IBM, per l'osservabilità dei dati end-to-end per Airflow e altre pipeline.

Databand aiuta i team a:

  • Ottenere visualizzazioni e avvisi fruibili per comprendere lo stato di salute e agire se necessario.
  • Sbloccare funzionalità avanzate di monitoraggio, tracciamento e avvisi per tutti i prodotti di dati e le loro dipendenze.
  • Ricevere consigli proattivi che sfruttano le best practice di Airflow per segnalare opportunità di ottimizzazione e risparmio sui costi.
  • Impostare e monitorare gli SLA per i prodotti di dati, rilevare i colli di bottiglia e le anomalie e intraprendere azioni consapevoli prima che i problemi influiscano sui risultati.

Sblocca la prontezza aziendale di Airflow 

La versatilità di Airflow, combinata con le capacità aziendali di Astronomer e la solida tecnologia di gestione dei dati di IBM, rende Astronomer with IBM la scelta ideale per eseguire Airflow su larga scala.

La nostra collaborazione con Astronomer semplifica l'adozione e la gestione di Airflow, offrendo un'esperienza semplice e supportata per i clienti che desiderano creare, distribuire e scalare pipeline di dati in più team.

Scarica il report State of Airflow 2025 per ottenere maggiori informazioni su come le aziende utilizzano Airflow e contatta il tuo rappresentante IBM.