Un data scientist studia grandi set di dati utilizzando analisi statistiche avanzate e algoritmi di machine learning. In tal modo, identifica i modelli nei dati per ottenere insight critici, e solitamente li utilizza per sviluppare soluzioni di machine learning per ottenere insight più efficienti e accurati su larga scala. In modo critico, combina questa esperienza statistica con l’esperienza di software engineering.
Alcune delle loro principali responsabilità includono:
- Trasformare e pulire grandi set di dati in un formato utilizzabile
- Applicare tecniche come il clustering, le reti neurali e i decision tree per ottenere insight dai dati
- Analizzare i dati per identificare i modelli e individuare le tendenze che possono avere un impatto sul business
- Sviluppo di algoritmi di apprendimento automatico (link esterno a ibm.com) per valutare i dati
- Creare modelli di dati per prevedere i risultati
Le competenze importanti per un data scientist includono:
- Competenza in SAS, R e Python
- Una profonda esperienza nel machine learning, nel condizionamento dei dati e nella matematica avanzata
- Esperienza nell’uso di strumenti per i big data
- Comprensione dello sviluppo e delle operazioni delle API
- Background nell’ottimizzazione dei dati e nel data mining
- Forte capacità di pensiero creativo e di processo decisionale
Come si combina tutto questo?
Leggere le descrizioni di data engineer, data scientist e analytics engineer può creare confusione, poiché ci sono sicuramente sovrapposizioni nelle competenze e nelle aree di interesse dei vari ruoli. Quindi come si collega tutto questo?
Un data engineer crea programmi che generano dati e, sebbene faccia in modo che tali dati siano significativi, dovranno comunque essere combinati con altre fonti. Un analytics engineer riunisce queste fonti di dati per creare sistemi che consentano agli utenti di accedere a insight consolidati in modo facile da accedere e ripetibile. Infine, un data scientist sviluppa strumenti per analizzare tutti questi dati su larga scala e identificare modelli e tendenze più velocemente e meglio di qualsiasi essere umano.
Insomma, tra questi ruoli deve esserci una relazione forte. Ma fin troppo spesso finisce per essere disfunzionale. Jeff Magnuson, Vicepresidente di Data Platform di Stitch Fix, ha trattato di questo argomento diversi anni fa in un articolo intitolato Engineers Shouldn’t Write ETL (link esterno a ibm.com).Il focus del suo articolo era che i team di dati ad alto funzionamento non dovrebbero avere “pensatori” e “agenti” distinti, ma di proprietà end-to-end sul lavoro che producono. Questo significa che non deve esserci una mentalità di “recinzione” tra questi ruoli.
Il risultato è una forte richiesta di data scientist con un background ingegneristico che capiscano come costruire processi ripetibili e l’importanza del tempo di attività e degli SLA. A sua volta, questo approccio ha un impatto sul ruolo dei data engineer, che possono quindi lavorare fianco a fianco con i data scientist in un modo completamente diverso. E, naturalmente, ciò ha ripercussioni anche sugli analytics engineer.
Capire finalmente per tutte la differenza tra data engineer, data scientist e analytics engineer (per ora)
È comunque vero che molte organizzazioni definiscono ciascuno di questi ruoli in modo diverso. È difficile tracciare una linea netta tra dove finisce uno e inizia l’altro perché, in una certa misura, hanno compiti simili. Come conclude Josh Laurito: “Tutti scrivono SQL. Tutti si preoccupano della qualità. Tutti valutano tabelle diverse e scrivono dati da qualche parte, e tutti si lamentano dei fusi orari. Fanno un sacco di cose uguali. Quindi, in realtà, il modo in cui li dividiamo è in base a dove sono rispetto ai nostri data store di analytics primari.”
In Squarespace, ciò significa che i data engineer sono responsabili di tutto il lavoro svolto per creare e mantenere quegli store, gli analytics engineer sono inseriti nei team funzionali per supportare il processo decisionale, mettere insieme le narrazioni sui dati e usarle per guidare azioni e decisioni, e i data scientist stanno al centro, stabilendo le strutture di incentivazione e le metriche per prendere le decisioni e guidare le persone.
Naturalmente, la situazione sarà leggermente diversa per ogni organizzazione. E per quanto le linee per ora siano sfocate, ognuno di questi ruoli continuerò ad evolversi e a modificare ulteriormente le dinamiche di ciascuno. Speriamo comunque che questa panoramica aiuti a spiegare qual è la differenza tra data engineer, data scientist e analytics engineer, almeno per ora.
Scopri di più sulla piattaforma di osservabilità dei dati di IBM® Databand e su come aiuta a rilevare più velocemente gli incidenti relativi ai dati, a risolverli prima e a fornire dati più affidabili all’azienda. Se desideri approfondire ulteriormente l’argomento, prenota subito una demo.