La data science combina matematica e statistica, programmazione specializzata, analytics avanzata, AI e machine learning con competenze specifiche in materia per scoprire insight utilizzabili nascosti nei dati di un'organizzazione. Questi insight possono essere utilizzati per orientare il processo decisionale e la pianificazione strategica.
La costante accelerazione del volume delle fonti di dati, e quindi dei dati, ha reso la data science uno dei campi in più rapida crescita in ogni settore. Di conseguenza, non sorprende che il ruolo del data scientist sia stato definito "il lavoro più sexy del 21° secolo" dalla Harvard Business Review (link esterno a IBM). Le organizzazioni fanno sempre più affidamento su di loro perché interpretino i dati e forniscano raccomandazioni utilizzabili per migliorare i risultati aziendali.
Il ciclo di vita della data science coinvolge vari ruoli, strumenti e processi, che consentono agli analisti di scoprire insight utilizzabili. Solitamente, un progetto di data science attraversa le seguenti fasi:
La data science è considerata una disciplina, mentre i data scientist sono gli operatori del settore. I data scientist non sono necessariamente direttamente responsabili di tutti i processi coinvolti nel ciclo di vita della data science. Ad esempio, le pipeline di dati sono tipicamente gestite dagli specialisti dei dati, ma il data scientist può fornire suggerimenti sul tipo di dati utili o necessari. Sebbene i data scientist siano in grado di costruire modelli di machine learning, scalare questi sforzi a un livello più ampio richiede maggiori competenze di ingegneria del software per ottimizzare un programma perché venga eseguito più rapidamente. Di conseguenza, è comune che un data scientist collabori con specialisti del machine learning per scalare i modelli di machine learning.
Le responsabilità dei data scientist si sovrappongono comunemente a quelle degli analisti di dati, in particolare per quanto riguarda l'analisi esplorativa e la visualizzazione dei dati. Tuttavia, le competenze di un data scientist sono in genere più ampie di quelle di un analista di dati medio. In termini comparativi, i data scientist utilizzano linguaggi di programmazione comuni, come R e Python, per condurre più inferenza statistica e visualizzazione dei dati.
Per svolgere queste attività, i data scientist hanno bisogno di competenze informatiche e di scienza pura superiori a quelle di un tipico analista aziendale o di dati. Il data scientist deve anche comprendere le specificità dell'azienda, come la produzione di automobili, l'e-commerce o la sanità.
In breve, un data scientist deve essere in grado di:
Queste competenze sono molto richieste e, di conseguenza, molti individui che vogliono intraprendere una carriera nel campo della data science esplorano una varietà di programmi di data science, come i programmi di certificazione, i corsi di data science e i programmi di laurea offerti dagli istituti didattici.
Potrebbe essere facile confondere i termini "data science" e "business intelligence" (BI) perché entrambi si riferiscono ai dati di un'organizzazione e all'analisi di tali dati, ma differiscono nell'obiettivo.
Business intelligence (BI) è un termine generico per la tecnologia che permette la preparazione dei dati, il data mining, la gestione dei dati e la visualizzazione dei dati. Gli strumenti e i processi di business intelligence permettono agli utenti finali di identificare le informazioni utilizzabili dai dati non elaborati, facilitando il processo decisionale basato sui dati all'interno delle organizzazioni in vari settori. Mentre gli strumenti di data science si sovrappongono in gran parte a questo riguardo, la business intelligence si concentra maggiormente sui dati del passato e gli insight degli strumenti di BI sono di natura più descrittiva. Utilizza i dati per capire cosa è successo prima per guidare una linea di condotta. La BI è orientata verso dati statici (immutabili) che di solito sono strutturati. Sebbene la data science utilizzi dati descrittivi, in genere li utilizza per determinare variabili predittive, che vengono quindi utilizzate per classificare i dati o per fare previsioni
La data science e la BI non si escludono a vicenda: le organizzazioni digitalmente avanzate utilizzano entrambe per comprendere appieno ed estrarre valore dai propri dati.
I data scientist si affidano ai più diffusi linguaggi di programmazione per condurre l'analisi dei dati e la regressione statistica. Questi strumenti open source supportano la modellazione statistica predefinita, il machine learning e le funzionalità grafiche. Questi linguaggi includono quanto segue (scopri di più in "Python vs. R: What's the Difference?"):
Per facilitare la condivisione del codice e di altre informazioni, i data scientist possono utilizzare i notebook GitHub e Jupyter.
Alcuni data scientist potrebbero preferire un'interfaccia utente, e due strumenti aziendali comuni per l'analisi statistica includono:
I data scientist acquisiscono inoltre competenza dall'utilizzo di piattaforme di elaborazione di big data, come Apache Spark, il framework open source Apache Hadoop e database NoSQL. Hanno inoltre competenze su una vasta gamma di strumenti di visualizzazione dei dati, compresi i semplici strumenti grafici inclusi nelle applicazioni di presentazione aziendale e foglio di calcolo, strumenti di visualizzazione commerciali costruiti per scopi specifici come Tableau e IBM Cognos, e strumenti open source come D3.js (una libreria JavaScript per creare visualizzazioni interattive di dati) e RAW Graphs. Per costruire modelli di machine learning, i data scientist si rivolgono spesso a diversi framework come TensorFlow, MXNet e Spark MLib.
Data la ripida curva di apprendimento nella data science, molte aziende stanno cercando di accelerare il loro ROI (return on investment) sui progetti di AI; spesso fanno fatica a ingaggiare i talenti necessari per realizzare il pieno potenziale del progetto di data science. Per colmare questa lacuna, si stanno rivolgendo a piattaforme DSML (data science and machine learning) multiutente, dando origine al ruolo di "citizen data scientist".
Le piattaforme DSML multiutente utilizzano l'automazione, i portali self-service e le interfacce utente con basso o nullo contenuto di codice in modo che le persone con poca o nessuna esperienza nella tecnologia digitale o nella data science esperta possano creare valore aziendale utilizzando la data science e il machine learning. Queste piattaforme possono risultare utili anche per data scientist esperti offrendo anche un'interfaccia più tecnica. L'utilizzo di una piattaforma DSML multiutente incoraggia la collaborazione all'interno dell'azienda.
Il cloud computing esegue la scalabilità della data science fornendo accesso a potenza di elaborazione e storage aggiuntivi e altri strumenti necessari per i progetti di data science.
Poiché la data science sfrutta spesso set di dati di grandi dimensioni, la capacità degli strumenti di eseguire la scalabilità insieme alle dimensioni dei dati è incredibilmente importante, in particolare per i progetti in cui il tempo è un fattore fondamentale. Le soluzioni di storage su cloud, come i data lake, forniscono l'accesso all'infrastruttura di storage, e sono in grado di acquisire ed elaborare facilmente grandi volumi di dati. Questi sistemi di storage offrono flessibilità agli utenti finali, consentendo loro di creare cluster di grandi dimensioni in base alle esigenze. Possono anche aggiungere nodi di elaborazione incrementali per accelerare i lavori di elaborazione dei dati, consentendo all'azienda di fare compromessi a breve termine per un risultato più ampio a lungo termine. Le piattaforme cloud hanno in genere diversi modelli di prezzo, come quello basato sull'utilizzo o gli abbonamenti, per soddisfare le esigenze dell'utente finale, che si tratti di una grande impresa o di una piccola startup.
Le tecnologie open source sono ampiamente utilizzate nei set di strumenti di data science. Quando sono ospitati nel cloud, i team non hanno bisogno di installarle, configurarle, manutenerle o aggiornarle localmente. Diversi fornitori di cloud, tra cui IBM® Cloud, offrono anche kit di strumenti preconfezionati che consentono ai data scientist di costruire modelli senza dover codificare, democratizzando ulteriormente l'accesso alle innovazioni tecnologiche e agli insight sui dati.
Le aziende possono beneficiare di numerosi vantaggi derivanti dalla data science. I casi d'utilizzo più comuni includono l'ottimizzazione dei processi attraverso l'automazione intelligente e il miglioramento del targeting e della personalizzazione per migliorare l'esperienza del cliente. Tuttavia, esempi più specifici includono:
Ecco alcuni casi d'utilizzo rappresentativi della data science e dell'AI:
Sincronizza DevOps e ModelOps. Crea ed esegui la scalabilità dei modelli AI con le tue applicazioni native del cloud virtualmente su qualsiasi cloud.
Aumenta l'interpretabilità dell'AI. Valuta e mitiga i rischi dell'AI. Implementa l'AI con fiducia e sicurezza.
Costruisci e addestra rapidamente modelli predittivi di alta qualità. Semplifica la gestione del ciclo di vita dell'AI.
Autostrade per l'Italia ha implementato diverse soluzioni IBM per completare la trasformazione digitale e migliorare il modo in cui monitora e gestisce la sua vasta rete di risorse infrastrutturali.
MANA Community ha collaborato con IBM Garage per costruire una piattaforma di AI in grado di estrarre enormi volumi di dati ambientali da molteplici canali digitali e migliaia di fonti.