Cos'è la data science?

Giovane donna afroamericana concentrata che lavora con il report economico.

Cos'è la data science?

La data science combina matematica e statistica, programmazione specializzata, analytics avanzati, intelligenza artificiale (AI) e machine learning con competenze specifiche in materia per scoprire insight fruibili nascosti nei dati di un'organizzazione. Questi insight possono essere utilizzati per guidare il processo decisionale e la pianificazione strategica.

L'accelerazione del volume delle fonti di dati, e quindi dei dati, ha reso la data science uno dei campi in più rapida crescita in ogni settore. Di conseguenza, non sorprende che il ruolo del data scientist sia stato definito il "lavoro più sexy del 21° secolo" da Harvard Business Review. Le organizzazioni si affidano sempre più a loro per interpretare i dati e fornire raccomandazioni attuabili per migliorare i risultati aziendali.

Il ciclo di vita della data science coinvolge vari ruoli, strumenti e processi, che consentono agli analisti di raccogliere insight utili. Tipicamente, un progetto di data science attraversa le seguenti fasi:

Data ingestion: il ciclo di vita inizia con la raccolta dei dati, sia strutturati che non strutturati, da tutte le fonti pertinenti utilizzando una varietà di metodi. Questi metodi possono includere l'immissione manuale, il web scraping e lo streaming di dati in tempo reale da sistemi e dispositivi. Le fonti di dati possono includere dati strutturati, come i dati dei clienti, insieme a dati non strutturati come file di registro, video, audio, immagini, IoT (Internet of Things), social media e altro ancora.

Storage dei dati e trattamento dei dati: poiché i dati possono avere formati e strutture diverse, le aziende devono considerare diversi sistemi di storage in base al tipo di dati che devono essere acquisiti. I team di gestione dei dati aiutano a impostare standard relativi allo storage dei dati e alla struttura dei dati, che facilitano i workflow relativi a analytics, machine learning e modelli di deep learning. Questa fase include la pulizia dei dati, la deduplicazione, la trasformazione e la combinazione dei dati utilizzando processi ETL (Extract, Transform, Load) o altre tecnologie di integrazione dei dati. Questa preparazione dei dati è essenziale per promuovere la qualità dei dati prima del caricamento in un data warehouse, un data lake o un altro repository.

Analisi dei dati: in questo caso, i data scientist eseguono un'analisi esplorativa dei dati per esaminare le distorsioni, i modelli, gli intervalli e le distribuzioni di valori all'interno dei dati. Questa esplorazione incentrata sugli analytics dei dati promuove la generazione di ipotesi per i test a/b. Consente inoltre agli analisti di determinare la rilevanza dei dati da utilizzare all'interno degli sforzi di modellazione per gli analytics predittivi, il machine learning e/o il deep learning. A seconda della precisione di un modello, le organizzazioni possono fare affidamento su questi insight per il processo decisionale aziendale, consentendo loro di promuovere una maggiore scalabilità.

Comunicazione: infine, gli insight vengono presentati sotto forma di report e altre visualizzazioni dei dati che rendono le informazioni e il loro impatto sul business più facili da comprendere per gli analisti aziendali e gli altri decisori. Un linguaggio di programmazione di data science come R o Python include componenti per la generazione di visualizzazioni; in alternativa, i data scientist possono utilizzare strumenti di visualizzazione dedicati.

Cosa fanno i data scientist

I data scientist sono esperti nell'estrarre dai dati informazioni e risposte specifiche del settore. Possiedono competenze informatiche e scientifiche superiori a quelle di un tipico analista aziendale o analista di dati, nonché una profonda conoscenza delle specificità del settore o della disciplina aziendale in cui lavorano (ad esempio, produzione automobilistica, e-commerce o assistenza sanitaria).

Un data scientist deve essere in grado di:

Conoscere l'azienda a sufficienza per porre domande pertinenti e identificare i punti deboli dell'azienda.
Applicare all'analisi dei dati la statistica e l'informatica, insieme all'acume commerciale.
Utilizzare un'ampia gamma di strumenti e tecniche per la preparazione e l'estrazione dei dati, dai database e SQL al data mining fino ai metodi di integrazione dei dati.
Estrarre insight dai big data utilizzando l'analytics predittiva e l'intelligenza artificiale (AI), tra cui modelli di machine learning, elaborazione del linguaggio naturale e deep learning.
Sviluppare programmi che automatizzino il trattamento dei dati e i calcoli.
Raccontare e illustrare storie che trasmettono chiaramente il significato dei risultati ai decisori e agli stakeholder a tutti i livelli di comprensione tecnica.
Spiegare come i risultati possono essere utilizzati per risolvere problemi aziendali.
Collaborare con altri membri del team di data science, come analisti aziendali e di dati, architetti IT, ingegneri dei dati e sviluppatori di applicazioni.

Queste skill sono molto richieste e, di conseguenza, molte persone che stanno intraprendendo una carriera nella data science esplorano una varietà di programmi di scienza dei dati, come programmi di certificazione, corsi di data science e corsi di laurea offerti da istituti di istruzione.

I data scientist non sono necessariamente responsabili di tutti i processi coinvolti nel ciclo di vita della data science. Ad esempio, le pipeline di dati sono in genere gestite da ingegneri dei dati, ma il data scientist può fornire consigli sul tipo di dati utili o necessari. Sebbene i data scientist possano creare modelli di machine learning, scalare questi sforzi a un livello più ampio richiede maggiori skill di ingegneria del software per ottimizzare un programma affinché venga eseguito più rapidamente. Di conseguenza, è comune che un data scientist collabori con ingegneri di machine learning per scalare i modelli di machine learning.

Le responsabilità dei data scientist possono comunemente sovrapporsi a quelle degli analisti di dati, in particolare per quanto riguarda l'analisi esplorativa e la visualizzazione dei dati. Tuttavia, le competenze di un data scientist sono generalmente più ampie rispetto all'analista medio dei dati. In termini comparativi, i data scientist utilizzano linguaggi di programmazione comuni, come R e Python, per condurre più inferenza statistica e visualizzazione dei dati.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Guarda tutti gli episodi di Mixture of Experts

Confronto tra data science e business intelligence

Può essere facile confondere i termini "data science" e "business intelligence" (BI) perché entrambi si riferiscono ai dati di un'organizzazione e all'analisi di tali dati, ma differiscono nell'obiettivo.

Business intelligence (BI) è in genere un termine generico per la tecnologia che consente la preparazione, il data mining, la gestione e la visualizzazione dei dati. Gli strumenti e i processi di business intelligence consentono agli utenti finali di identificare le informazioni utilizzabili dai dati non elaborati, facilitando il processo decisionale basato sui dati all'interno delle organizzazioni di vari settori. Sebbene gli strumenti di data science si sovrappongano in gran parte a questo aspetto, la business intelligence si concentra maggiormente sui dati del passato e gli insight degli strumenti di BI sono di natura più descrittiva. Utilizza i dati per capire cosa è successo prima per informare una linea di condotta. La BI è orientata verso dati statici (immutabili) che solitamente sono strutturati. Sebbene la data science utilizzi dati descrittivi, in genere li utilizza per determinare variabili predittive, che vengono quindi utilizzate per classificare i dati o per fare previsioni.

La data science e la BI non si escludono a vicenda: le organizzazioni digitalmente avanzate le utilizzano entrambe per comprendere appieno ed estrarre valore dai propri dati.

Strumenti di data science

I data scientist si affidano ai linguaggi di programmazione più diffusi per condurre analisi esplorative dei dati e regressione statistica. Questi strumenti open source supportano funzionalità precostituite di modellazione statistica, machine learning e grafica. Questi linguaggi includono quanto segue (approfondimenti in "Python vs. R: qual è la differenza?"):

R Studio: un linguaggio di programmazione e un ambiente open source per lo sviluppo di calcoli statistici e grafici.
Python: è un linguaggio di programmazione dinamico e flessibile. Python include numerose librerie, come NumPy, Pandas, Matplotlib, per l'analisi rapida dei dati.

Per facilitare la condivisione di codice e altre informazioni, i data scientist possono utilizzare i notebook GitHub e Jupyter.

Alcuni data scientist potrebbero preferire un'interfaccia utente, e due strumenti aziendali comuni per l'analisi statistica includono:

SAS: una suite completa di strumenti che comprende visualizzazioni e dashboard interattivi per l'analisi, il reporting, il data mining e la modellazione predittiva.
IBM SPSS: offre analisi statistiche avanzate, una vasta libreria di algoritmi di machine learning, analisi del testo, estensibilità open source, integrazione con big data e implementazione senza soluzione di continuità nelle applicazioni.

I data scientist acquisiscono inoltre competenze nell'utilizzo di piattaforme di trattamento dei big data, come Apache Spark, il framework open source Apache Hadoop e i database NoSQL. Sono anche esperti di un'ampia gamma di strumenti di visualizzazione dei dati, tra cui i semplici strumenti grafici inclusi nelle applicazioni di presentazione aziendale e nei fogli di calcolo (come Microsoft Excel), gli strumenti di visualizzazione commerciali costruiti ad hoc come Tableau e IBM Cognos e gli strumenti open source come D3.js (una libreria JavaScript per la creazione di visualizzazioni interattive dei dati) e RAW Graphs. Per la creazione di modelli di machine learning, i data scientist si rivolgono spesso a diversi framework come PyTorch, TensorFlow, MXNet e Spark MLib.

Data la ripida curva di apprendimento nella data science, molte aziende stanno cercando di accelerare il ritorno sull'investimento per i progetti di AI; spesso hanno difficoltà ad assumere i talenti necessari per realizzare il pieno potenziale del progetto di data science. Per colmare questa lacuna, si rivolgono a piattaforme di data science e machine learning (DSML) multipersona, dando vita al ruolo di "citizen data scientist".

Le piattaforme DSML multipersona utilizzano automazione, portali self-service e interfacce utente low-code/no-code in modo che le persone con poca o nessuna esperienza nella tecnologia digitale o nella data science esperta possano creare valore aziendale utilizzando la data science e il machine learning. Queste piattaforme supportano anche i data scientist esperti offrendo anche un'interfaccia più tecnica. L'utilizzo di una piattaforma DSML multipersona incoraggia la collaborazione in tutta l'azienda.

Data science e cloud computing

Il cloud computing scala la data science fornendo l'accesso a ulteriore potenza di elaborazione, storage e altri strumenti necessari per i progetti di data science.

Poiché la data science utilizza spesso set di dati di grandi dimensioni, gli strumenti in grado di adattarsi alle dimensioni dei dati sono incredibilmente importanti, in particolare per i progetti sensibili al fattore tempo. Le soluzioni di storage su cloud, come i data lake, forniscono l'accesso all'infrastruttura di storage, e sono in grado di inserire ed elaborare grandi volumi di dati con facilità. Questi sistemi di storage offrono flessibilità agli utenti finali, consentendo loro di creare cluster di grandi dimensioni secondo necessità. Possono anche aggiungere nodi di calcolo incrementali per accelerare i processi di trattamento dei dati, consentendo all'azienda di fare compromessi a breve termine per un risultato più ampio a lungo termine. Le piattaforme cloud in genere hanno diversi modelli di prezzo, ad esempio per uso o abbonamenti, per soddisfare le esigenze dell'utente finale, sia che si tratti di una grande azienda o di una piccola startup.

Le tecnologie open source sono ampiamente utilizzate nei set di strumenti di data science. Quando sono ospitati nel cloud, i team non devono installarli, configurarli, conservarli o aggiornarli localmente. Diversi provider di cloud, tra cui IBM Cloud, offrono anche kit di strumenti preconfigurati che consentono ai data scientist di costruire modelli senza codifica, democratizzando ulteriormente l'accesso alle innovazioni tecnologiche e agli insight sui dati.

casi d'uso della data science

Le aziende possono sbloccare numerosi benefici offerti dalla data science. I casi d'uso più comuni includono l'ottimizzazione dei processi attraverso l'automazione intelligente e il miglioramento del targeting e della personalizzazione per migliorare l'esperienza del cliente (CX). Tuttavia, esempi più specifici includono:

Ecco alcuni casi d'uso rappresentativi per la data science e l'intelligenza artificiale:

Una banca internazionale fornisce servizi di prestito più rapidi con un'app mobile utilizzando modelli di rischio di credito basati su algoritmi di machine learning e un'architettura di cloud computing ibrido potente e sicura.
Una società di elettronica sta sviluppando potenti sensori stampati in 3D per guidare i veicoli senza conducente del futuro. La soluzione si basa su strumenti di data science e analytics per migliorare le sue funzionalità di rilevamento di oggetti in tempo reale.
Un provider di soluzioni RPA (Robotic Process Automation) ha sviluppato una soluzione di process mining per il cognitive business che riduce i tempi di gestione degli incidenti tra il 15% e il 95% per le aziende dei propri clienti. La soluzione è addestrata per comprendere il contenuto e il sentiment delle e-mail dei clienti, indirizzando i team di assistenza a dare priorità a quelle più pertinenti e urgenti.
Un'azienda di tecnologia multimediale digitale ha creato una piattaforma di analytics del destinatario che consente ai suoi clienti di vedere cosa sta coinvolgendo il pubblico televisivo mentre gli viene offerta una gamma crescente di canali digitali. La soluzione utilizza analytics approfonditi e machine learning per raccogliere insight in tempo reale sul comportamento degli spettatori.
Un dipartimento di polizia urbana ha creato strumenti statistici per l'analisi degli incidenti per aiutare gli ufficiali a comprendere quando e dove distribuire le risorse per prevenire il crimine. La soluzione basata sui dati crea report e dashboard per aumentare la consapevolezza situazionale per gli agenti sul campo.
Shanghai Changjiang Science and Technology Development ha utilizzato la tecnologia IBM Watson per creare una piattaforma di valutazione medica basata sull'AI in grado di analizzare le cartelle cliniche esistenti per categorizzare i pazienti in base al rischio di ictus e di prevedere la percentuale di successo dei diversi piani di trattamento.

Le quattro fasi per migliorare le previsioni aziendali con l'analisi dei dati

Usa il potere dell'analisi e della business intelligence per pianificare, prevedere e modellare i risultati futuri a beneficio della tua azienda e dei tuoi clienti.

Risorse

Esplora IBM Granite

IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.

Gestione dei dati per l'AI e l'analisi su larga scala

Scopri come un approccio di data lakehouse aperto può fornire dati affidabili e maggior rapidità in termini di analytics ed esecuzione dei progetti di AI.

Data science e MLOps per i leader dei dati

Usa questo ebook per allinearti con altri leader sui 3 obiettivi chiave di MLOps e dell'AI affidabile: fiducia nei dati, fiducia nei modelli e fiducia nei processi.

Aumenta l'adozione dell'AI con dati pronti per l'intelligenza artificiale

Scopri perché data intelligence e integrazione dei dati basate su AI sono critiche per guidare la preparazione dei dati strutturati e non strutturati e accelerare i risultati dell'AI.

The Data Differentiator

Esplora la guida per i leader dei dati che desiderano creare un'organizzazione basata sui dati e ottenere un vantaggio aziendale.

Come scegliere il giusto foundation model

Scopri come scegliere il foundation model di AI più adatto al tuo caso d'uso.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare l'AI generativa, il machine learning e i foundation model nelle operazioni di business per migliorare le prestazioni.

Il pensiero architettonico nel selvaggio West della data science

Scopri perché disporre di una completa libertà nella scelta dei linguaggi di programmazione, degli strumenti e dei framework migliora il pensiero creativo e l'evoluzione.

Soluzioni correlate

Strumenti e soluzioni di data science

Usa strumenti e soluzioni di data science per scoprire modelli e creare previsioni utilizzando dati, algoritmi, tecniche di machine learning e AI.

Esplora le soluzioni di data science

IBM Cognos Analytics

Introduzione a Cognos Analytics 12.0, insight basati sull'AI per prendere decisioni migliori.

Esplora Cognos Analytics

Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics

Fasi successive

Usa strumenti e soluzioni di data science per scoprire modelli e creare previsioni utilizzando dati, algoritmi, tecniche di machine learning e AI.

Esplora le soluzioni di data science

Esplora i servizi di analytics