Cos'è la data science?
Scopri in che modo la data science può sbloccare gli insight di business, accelerare la trasformazione digitale e consentire un processo decisionale basato sui dati
Scienziato che utilizza un computer in laboratorio
Cos'è la data science?

La data science combina matematica e statistica, programmazione specializzata, analytics avanzata, AI e machine learning con competenze specifiche in materia per scoprire insight utilizzabili nascosti nei dati di un'organizzazione. Questi insight possono essere utilizzati per orientare il processo decisionale e la pianificazione strategica.

La costante accelerazione del volume delle fonti di dati, e quindi dei dati, ha reso la data science uno dei campi in più rapida crescita in ogni settore. Di conseguenza, non sorprende che il ruolo del data scientist sia stato definito "il lavoro più sexy del 21° secolo" dalla Harvard Business Review (link esterno a IBM). Le organizzazioni fanno sempre più affidamento su di loro perché interpretino i dati e forniscano raccomandazioni utilizzabili per migliorare i risultati aziendali.

Il ciclo di vita della data science coinvolge vari ruoli, strumenti e processi, che consentono agli analisti di scoprire insight utilizzabili. Solitamente, un progetto di data science attraversa le seguenti fasi:

  • Inserimento dati: il ciclo di vita inizia con la raccolta dei dati, sia strutturati che non strutturati, da tutte le fonti pertinenti utilizzando una varietà di metodi. Questi metodi possono includere l'inserimento manuale, il web scraping e lo streaming di dati in tempo reale da sistemi e dispositivi. Le fonti di dati possono includere dati strutturati, come i dati dei clienti, e dati non strutturati, come file di log, video, audio, immagini, IoT (Internet of Things), social media e altro ancora.
  • Storage dei dati ed elaborazione dei dati: poiché i dati possono avere formati e strutture diversi, le aziende devono prendere in considerazione sistemi di storage diversi in base al tipo di dati che devono essere acquisiti. I team di gestione dei dati contribuiscono a definire gli standard per lo storage e la struttura dei dati, che facilitano i flussi di lavoro relativi all'analytics, al machine learning e ai modelli di deep learning. Questa fase comprende la pulizia dei dati, la deduplicazione, la trasformazione e la combinazione dei dati mediante lavori ETL (extract, transform, load) o altre tecnologie di integrazione dei dati. Questa preparazione dei dati è essenziale per migliorare la qualità dei dati prima del caricamento in un data warehouse, in un data lake o in un altro repository.
  • Analisi dei dati: in questo caso, i data scientist conducono un'analisi esplorativa dei dati per esaminare le distorsioni, gli schemi, gli intervalli e le distribuzioni dei valori all'interno dei dati. Questa esplorazione analitica dei dati guida la generazione delle ipotesi per i test a/b. Inoltre, consente agli analisti di determinare la rilevanza dei dati per l'utilizzo nell'ambito di attività di modellazione per l'analytics predittiva, il machine learning e/o il deep learning. A seconda dell'accuratezza del modello, le organizzazioni possono fare affidamento su questi insight per il processo decisionale aziendale, consentendo loro di promuovere una maggiore scalabilità.
  • Comunicazione: infine, gli insight vengono presentati sotto forma di report e altre viste dei dati che rendono gli insight e il loro impatto sul business più facili da comprendere per gli analisti aziendali e altri responsabili del processo decisionale. Un linguaggio di programmazione per la data science come R o Python include componenti per generare viste; in alternativa, i data scientist possono usare strumenti di visualizzazione dedicati.
Confronto tra data science e data scientist

La data science è considerata una disciplina, mentre i data scientist sono gli operatori del settore. I data scientist non sono necessariamente direttamente responsabili di tutti i processi coinvolti nel ciclo di vita della data science. Ad esempio, le pipeline di dati sono tipicamente gestite dagli specialisti dei dati, ma il data scientist può fornire suggerimenti sul tipo di dati utili o necessari. Sebbene i data scientist siano in grado di costruire modelli di machine learning, scalare questi sforzi a un livello più ampio richiede maggiori competenze di ingegneria del software per ottimizzare un programma perché venga eseguito più rapidamente. Di conseguenza, è comune che un data scientist collabori con specialisti del machine learning per scalare i modelli di machine learning.

Le responsabilità dei data scientist si sovrappongono comunemente a quelle degli analisti di dati, in particolare per quanto riguarda l'analisi esplorativa e la visualizzazione dei dati. Tuttavia, le competenze di un data scientist sono in genere più ampie di quelle di un analista di dati medio. In termini comparativi, i data scientist utilizzano linguaggi di programmazione comuni, come R e Python, per condurre più inferenza statistica e visualizzazione dei dati.

Per svolgere queste attività, i data scientist hanno bisogno di competenze informatiche e di scienza pura superiori a quelle di un tipico analista aziendale o di dati. Il data scientist deve anche comprendere le specificità dell'azienda, come la produzione di automobili, l'e-commerce o la sanità.

In breve, un data scientist deve essere in grado di:

  • Conoscere l'azienda a sufficienza per porre domande pertinenti e identificare i punti di sofferenza.
  • Applicare all'analisi dei dati la statistica e l'informatica, insieme all'acume commerciale.
  • Utilizzare un'ampia gamma di strumenti e tecniche per preparare ed estrarre i dati, dai database e l'SQL al data mining fino ai metodi di integrazione dei dati.
  • Estrarre insight dai big data utilizzando l'analytics predittiva e l' AI , compresi  modelli di machine learningNLP (Natural Language Processing)e  deep learning.
  • Scrivere programmi che automatizzano l'elaborazione dei dati e i calcoli.
  • Raccontare e illustrare storie che trasmettano chiaramente il significato dei risultati ai responsabili del processo decisionale e alle parti interessate con qualsiasi livello di comprensione degli aspetti tecnici.
  • Spiegare come questi risultati possono essere utilizzati per risolvere problemi aziendali.
  • Collaborare con altri membri del team di data science, come analisti di dati e aziendali, architetti IT, specialisti dei dati e sviluppatori di applicazioni.

Queste competenze sono molto richieste e, di conseguenza, molti individui che vogliono intraprendere una carriera nel campo della data science esplorano una varietà di programmi di data science, come i programmi di certificazione, i corsi di data science e i programmi di laurea offerti dagli istituti didattici.

Confronto tra data science e business intelligence

Potrebbe essere facile confondere i termini "data science" e "business intelligence" (BI) perché entrambi si riferiscono ai dati di un'organizzazione e all'analisi di tali dati, ma differiscono nell'obiettivo.

Business intelligence (BI) è un termine generico per la tecnologia che permette la preparazione dei dati, il data mining, la gestione dei dati e la visualizzazione dei dati. Gli strumenti e i processi di business intelligence permettono agli utenti finali di identificare le informazioni utilizzabili dai dati non elaborati, facilitando il processo decisionale basato sui dati all'interno delle organizzazioni in vari settori. Mentre gli strumenti di data science si sovrappongono in gran parte a questo riguardo, la business intelligence si concentra maggiormente sui dati del passato e gli insight degli strumenti di BI sono di natura più descrittiva. Utilizza i dati per capire cosa è successo prima per guidare una linea di condotta. La BI è orientata verso dati statici (immutabili) che di solito sono strutturati. Sebbene la data science utilizzi dati descrittivi, in genere li utilizza per determinare variabili predittive, che vengono quindi utilizzate per classificare i dati o per fare previsioni

La data science e la BI non si escludono a vicenda: le organizzazioni digitalmente avanzate utilizzano entrambe per comprendere appieno ed estrarre valore dai propri dati.

Strumenti di data science

I data scientist si affidano ai più diffusi linguaggi di programmazione per condurre l'analisi dei dati e la regressione statistica. Questi strumenti open source supportano la modellazione statistica predefinita, il machine learning e le funzionalità grafiche. Questi linguaggi includono quanto segue (scopri di più in "Python vs. R: What's the Difference?"):

  • R Studio: un linguaggio di programmazione open source e un ambiente per lo sviluppo di calcolo statistico e grafica.
  • Python: è un linguaggio di programmazione dinamico e flessibile. Python include numerose librerie, come NumPy, Pandas, Matplotlib, per analizzare i dati velocemente.

Per facilitare la condivisione del codice e di altre informazioni, i data scientist possono utilizzare i notebook GitHub e Jupyter.

Alcuni data scientist potrebbero preferire un'interfaccia utente, e due strumenti aziendali comuni per l'analisi statistica includono:

  • SAS: una suite di strumenti completa, che include viste e dashboard interattivi, per l'analisi, la creazione di report, il data mining e la modellazione predittiva.
  • IBM SPSS: offre analisi statistica avanzata, un'ampia libreria di algoritmi di machine learning, analisi del testo, estensibilità open source, integrazione con i big data e implementazione continua nelle applicazioni.

I data scientist acquisiscono inoltre competenza dall'utilizzo di piattaforme di elaborazione di big data, come Apache Spark, il framework open source Apache Hadoop e database NoSQL. Hanno inoltre competenze su una vasta gamma di strumenti di visualizzazione dei dati, compresi i semplici strumenti grafici inclusi nelle applicazioni di presentazione aziendale e foglio di calcolo, strumenti di visualizzazione commerciali costruiti per scopi specifici come Tableau e IBM Cognos, e strumenti open source come D3.js (una libreria JavaScript per creare visualizzazioni interattive di dati) e RAW Graphs. Per costruire modelli di machine learning, i data scientist si rivolgono spesso a diversi framework come TensorFlow, MXNet e Spark MLib.

Data la ripida curva di apprendimento nella data science, molte aziende stanno cercando di accelerare il loro ROI (return on investment) sui progetti di AI; spesso fanno fatica a ingaggiare i talenti necessari per realizzare il pieno potenziale del progetto di data science. Per colmare questa lacuna, si stanno rivolgendo a piattaforme DSML (data science and machine learning) multiutente, dando origine al ruolo di "citizen data scientist".

Le piattaforme DSML multiutente utilizzano l'automazione, i portali self-service e le interfacce utente con basso o nullo contenuto di codice in modo che le persone con poca o nessuna esperienza nella tecnologia digitale o nella data science esperta possano creare valore aziendale utilizzando la data science e il machine learning. Queste piattaforme possono risultare utili anche per data scientist esperti offrendo anche un'interfaccia più tecnica. L'utilizzo di una piattaforma DSML multiutente incoraggia la collaborazione all'interno dell'azienda.

Data science e cloud computing

Il cloud computing esegue la scalabilità della data science fornendo accesso a potenza di elaborazione e storage aggiuntivi e altri strumenti necessari per i progetti di data science.

Poiché la data science sfrutta spesso set di dati di grandi dimensioni, la capacità degli strumenti di eseguire la scalabilità insieme alle dimensioni dei dati è incredibilmente importante, in particolare per i progetti in cui il tempo è un fattore fondamentale. Le soluzioni di storage su cloud, come i data lake, forniscono l'accesso all'infrastruttura di storage, e sono in grado di acquisire ed elaborare facilmente grandi volumi di dati. Questi sistemi di storage offrono flessibilità agli utenti finali, consentendo loro di creare cluster di grandi dimensioni in base alle esigenze. Possono anche aggiungere nodi di elaborazione incrementali per accelerare i lavori di elaborazione dei dati, consentendo all'azienda di fare compromessi a breve termine per un risultato più ampio a lungo termine. Le piattaforme cloud hanno in genere diversi modelli di prezzo, come quello basato sull'utilizzo o gli abbonamenti, per soddisfare le esigenze dell'utente finale, che si tratti di una grande impresa o di una piccola startup.

Le tecnologie open source sono ampiamente utilizzate nei set di strumenti di data science. Quando sono ospitati nel cloud, i team non hanno bisogno di installarle, configurarle, manutenerle o aggiornarle localmente. Diversi fornitori di cloud, tra cui IBM® Cloud, offrono anche kit di strumenti preconfezionati che consentono ai data scientist di costruire modelli senza dover codificare, democratizzando ulteriormente l'accesso alle innovazioni tecnologiche e agli insight sui dati. 

Casi di utilizzo della data science

Le aziende possono beneficiare di numerosi vantaggi derivanti dalla data science. I casi d'utilizzo più comuni includono l'ottimizzazione dei processi attraverso l'automazione intelligente e il miglioramento del targeting e della personalizzazione per migliorare l'esperienza del cliente. Tuttavia, esempi più specifici includono:

Ecco alcuni casi d'utilizzo rappresentativi della data science e dell'AI:

  • Una banca internazionale offre servizi di credito più rapidi con un'applicazione per dispositivi mobili che utilizza modelli di rischio di credito basati sul machine learning e un'architettura di  cloud computing ibrido che è sia potente che sicura.
  • Un'azienda di elettronica sta sviluppando sensori stampati in 3D ultra-potenti che guideranno i veicoli senza conducente di domani. La soluzione si affida a data science e strumenti di analytics per migliorare le sue capacità di rilevamento degli oggetti in tempo reale.
  • Un fornitore di soluzioni RPA (robotic process automation) ha sviluppato una soluzione cognitiva di business process mining che riduce i tempi di gestione degli incidenti tra il 15% e il 95% per le sue aziende clienti. La soluzione è addestrata a comprendere il contenuto e il sentiment delle email dei clienti, orientando i team di servizio a dare priorità a quelle più rilevanti e urgenti.
  • Un'azienda di tecnologia dei media digitali ha creato una piattaforma di analisi del pubblico che permette ai suoi clienti di vedere cosa sta attraendo il pubblico televisivo nel momento in cui gli viene offerta una gamma crescente di canali digitali. La soluzione impiega l'analytics profonda e il machine learning per raccogliere insight in tempo reale del comportamento degli spettatori.
  • Un dipartimento di polizia urbana ha creato strumenti di analisi statistica degli incidenti per aiutare gli agenti a capire quando e dove impiegare le risorse per prevenire il crimine. La soluzione basata sui dati crea rapporti e dashboard per aumentare la consapevolezza della situazione per gli agenti sul campo.
  • Shanghai Changjiang Science and Technology Development ha utilizzato la tecnologia IBM® Watson per costruire una piattaforma di valutazione medica basata sull'AI , in grado di analizzare le cartelle cliniche esistenti per classificare i pazienti in base al loro rischio di essere colpiti da un ictus e di prevedere il tasso di successo di diversi piani terapeutici.
Soluzioni correlate
ModelOps

Sincronizza DevOps e ModelOps. Crea ed esegui la scalabilità dei modelli AI con le tue applicazioni native del cloud virtualmente su qualsiasi cloud.

Esplora ModelOps
XAI (eXplainable AI)

Aumenta l'interpretabilità dell'AI. Valuta e mitiga i rischi dell'AI. Implementa l'AI con fiducia e sicurezza.

Scopri di più sull'XAI (eXplainable AI)
AutoAI

Costruisci e addestra rapidamente modelli predittivi di alta qualità. Semplifica la gestione del ciclo di vita dell'AI.

Esplora l'AutoAI
Risorse Autostrade per l'Italia

Autostrade per l'Italia ha implementato diverse soluzioni IBM per completare la trasformazione digitale e migliorare il modo in cui monitora e gestisce la sua vasta rete di risorse infrastrutturali.

MANA Community

MANA Community ha collaborato con IBM Garage per costruire una piattaforma di AI in grado di estrarre enormi volumi di dati ambientali da molteplici canali digitali e migliaia di fonti.

Passa alla fase successiva

Il portfolio di prodotti IBM per la data science e il ciclo di vita dell'AI è costruito sul nostro impegno di lunga data verso le tecnologie open source e comprende una gamma di funzionalità di cui le aziende si possono servire per sbloccare il valore dei loro dati in modi nuovi. L'AutoAI, una nuova potente funzionalità di sviluppo automatizzato in IBM® Watson Studio, velocizza la preparazione dei dati, lo sviluppo dei modelli e le fasi di progettazione delle funzioni del ciclo di vita della data science. Questo permette ai data scientist di essere più efficienti e li aiuta a prendere decisioni più informate su quali modelli funzioneranno meglio per i casi di utilizzo del mondo reale. L'AutoAI semplifica la data science aziendale in qualsiasi ambiente cloud.

Prova IBM® Watson Studio