Cos'è la data science?
Esplora la soluzione di data science di IBM Iscriviti agli aggiornamenti sugli argomenti dell'AI
 Illustrazione che mostra la connessione tra l'analisi delle origini di dati per ottenere insight e le decisioni basate sui dati
Cos'è la data science?

La data science combina matematica e statistica, programmazione specializzata, analytics avanzati, intelligenza artificiale (AI) e machine learning con competenze specifiche in materia per scoprire insight utili nascosti nei dati di un'organizzazione. Questi insight possono essere utilizzati per guidare il processo decisionale e la pianificazione strategica.

L'accelerazione del volume delle fonti di dati, e quindi dei dati, ha reso la data science uno dei campi in più rapida crescita in ogni settore. Di conseguenza, non sorprende che il ruolo del data scientist sia stato definito il "lavoro più sexy del 21° secolo" da Harvard Business Review (link esterno a ibm.com). Le organizzazioni si affidano sempre più a loro per interpretare i dati e fornire raccomandazioni attuabili per migliorare i risultati aziendali.

Il ciclo di vita della data science coinvolge vari ruoli, strumenti e processi, che consentono agli analisti di raccogliere insight utili. Tipicamente, un progetto di data science attraversa le seguenti fasi:

  • Data ingestion: il ciclo di vita inizia con la raccolta dei dati, sia strutturati che non strutturati, da tutte le fonti pertinenti utilizzando una varietà di metodi. Questi metodi possono includere l'immissione manuale, il web scraping e lo streaming di dati in tempo reale da sistemi e dispositivi. Le fonti di dati possono includere dati strutturati, come i dati dei clienti, insieme a dati non strutturati come file di registro, video, audio, immagini, IoT (Internet of Things), social media e altro ancora.
  • Storage dei dati e trattamento dei dati: poiché i dati possono avere formati e strutture diverse, le aziende devono considerare diversi sistemi di storage in base al tipo di dati che devono essere acquisiti. I team di gestione dei dati aiutano a impostare standard relativi allo storage dei dati e alla struttura dei dati, che facilitano i workflow relativi a analytics, machine learning e modelli di deep learning. Questa fase include la pulizia dei dati, la deduplicazione, la trasformazione e la combinazione dei dati utilizzando processi ETL (Extract, Transform, Load) o altre tecnologie di integrazione dei dati. Questa preparazione dei dati è essenziale per promuovere la qualità dei dati prima del caricamento in un data warehouse, un data lake o un altro repository.
  • Analisi dei dati: in questo caso, i data scientist eseguono un'analisi esplorativa dei dati per esaminare le distorsioni, i modelli, gli intervalli e le distribuzioni di valori all'interno dei dati. Questa esplorazione incentrata sugli analytics dei dati promuove la generazione di ipotesi per i test a/b. Consente inoltre agli analisti di determinare la rilevanza dei dati da utilizzare all'interno degli sforzi di modellazione per gli analytics predittivi, il machine learning e/o il deep learning. A seconda della precisione di un modello, le organizzazioni possono fare affidamento su questi insight per il processo decisionale aziendale, consentendo loro di promuovere una maggiore scalabilità.
  • Comunicazione: infine, gli insight vengono presentati sotto forma di report e altre visualizzazioni dei dati che rendono le informazioni e il loro impatto sul business più facili da comprendere per gli analisti aziendali e gli altri decisori. Un linguaggio di programmazione di data science come R o Python include componenti per la generazione di visualizzazioni; in alternativa, i data scientist possono utilizzare strumenti di visualizzazione dedicati.
Data science e MLOps per i leader dei dati

Usa questo ebook per allinearti con altri leader sui 3 obiettivi chiave di MLOps e dell'AI affidabile: fiducia nei dati, fiducia nei modelli e fiducia nei processi.

Contenuti correlati

Registrati per il report di Gartner

Confronto tra data science e data scientist

La data science è considerata una disciplina, mentre i data scientist sono i professionisti in quel campo. I data scientist non sono necessariamente responsabili di tutti i processi coinvolti nel ciclo di vita della data science. Ad esempio, le pipeline di dati sono in genere gestite da ingegneri dei dati, ma il data scientist può fornire consigli sul tipo di dati utili o necessari. Sebbene i data scientist possano creare modelli di machine learning, scalare questi sforzi a un livello più ampio richiede maggiori skill di ingegneria del software per ottimizzare un programma affinché venga eseguito più rapidamente. Di conseguenza, è comune che un data scientist collabori con ingegneri di machine learning per scalare i modelli di machine learning.

Le responsabilità dei data scientist possono comunemente sovrapporsi a quelle degli analisti di dati, in particolare per quanto riguarda l'analisi esplorativa e la visualizzazione dei dati. Tuttavia, le competenze di un data scientist sono generalmente più ampie rispetto all'analista medio dei dati. In termini comparativi, i data scientist utilizzano linguaggi di programmazione comuni, come R e Python, per condurre più inferenza statistica e visualizzazione dei dati.

Per svolgere queste attività, i data scientist richiedono skill informatiche e di scienza pura superiori a quelle di un tipico analista aziendale o di dati. Il data scientist deve anche comprendere le specificità dell'azienda, come la produzione di automobili, l'e-commerce o la sanità.

In breve, un data scientist deve essere in grado di:

  • Conoscere l'azienda a sufficienza per porre domande pertinenti e identificare i punti deboli dell'azienda.
  • Applicare all'analisi dei dati la statistica e l'informatica, insieme all'acume commerciale.
  • Utilizzare un'ampia gamma di strumenti e tecniche per la preparazione e l'estrazione dei dati, dai database e SQL al data mining fino ai metodi di integrazione dei dati.
  • Estrarre insight dai big data utilizzando gli analytics predittivi e l'intelligenza artificiale (AI), tra cui modelli di machine learningelaborazione naturale del linguaggiodeep learning.
  • Scrivere programmi che automatizzino il trattamento dei dati e i calcoli.
  • Raccontare e illustrare storie che trasmettono chiaramente il significato dei risultati ai decisori e agli stakeholder a tutti i livelli di comprensione tecnica.
  • Spiegare come i risultati possono essere utilizzati per risolvere problemi aziendali.
  • Collaborare con altri membri del team di data science, come analisti aziendali e di dati, architetti IT, ingegneri dei dati e sviluppatori di applicazioni.

Queste skill sono molto richieste e, di conseguenza, molte persone che stanno intraprendendo una carriera nella data science esplorano una varietà di programmi di scienza dei dati, come programmi di certificazione, corsi di data science e corsi di laurea offerti da istituti di istruzione.

Ora disponibile: watsonx.ai

Il nuovissimo studio aziendale che riunisce il machine learning tradizionale e le nuove funzionalità di AI generativa basate su foundation model.

Prodotti in primo piano

Watson Studio

IBM Cloud Pak for Data

Confronto tra data science e business intelligence

Può essere facile confondere i termini "data science" e "business intelligence" (BI) perché entrambi si riferiscono ai dati di un'organizzazione e all'analisi di tali dati, ma differiscono nell'obiettivo.

Business intelligence (BI) è in genere un termine generico per la tecnologia che consente la preparazione, il data mining, la gestione e la visualizzazione dei dati. Gli strumenti e i processi di business intelligence consentono agli utenti finali di identificare le informazioni utilizzabili dai dati non elaborati, facilitando il processo decisionale basato sui dati all'interno delle organizzazioni di vari settori. Sebbene gli strumenti di data science si sovrappongano in gran parte a questo aspetto, la business intelligence si concentra maggiormente sui dati del passato e gli insight degli strumenti di BI sono di natura più descrittiva. Utilizza i dati per capire cosa è successo prima per informare una linea di condotta. La BI è orientata verso dati statici (immutabili) che solitamente sono strutturati. Sebbene la data science utilizzi dati descrittivi, in genere li utilizza per determinare variabili predittive, che vengono quindi utilizzate per classificare i dati o per fare previsioni.

La data science e la BI non si escludono a vicenda: le organizzazioni digitalmente avanzate le utilizzano entrambe per comprendere appieno ed estrarre valore dai propri dati.

Strumenti di data science

I data scientist si affidano ai linguaggi di programmazione più diffusi per condurre analisi esplorative dei dati e regressione statistica. Questi strumenti open source supportano funzionalità precostituite di modellazione statistica, machine learning e grafica. Questi linguaggi includono quanto segue (approfondimenti in "Python vs. R: qual è la differenza?"):

  • R Studio: un linguaggio di programmazione e un ambiente open source per lo sviluppo di calcoli statistici e grafici.
  • Python: è un linguaggio di programmazione dinamico e flessibile. Python include numerose librerie, come NumPy, Pandas, Matplotlib, per l'analisi rapida dei dati.

Per facilitare la condivisione di codice e altre informazioni, i data scientist possono utilizzare i notebook GitHub e Jupyter.

Alcuni data scientist potrebbero preferire un'interfaccia utente, e due strumenti aziendali comuni per l'analisi statistica includono:

  • SAS: una suite completa di strumenti che comprende visualizzazioni e dashboard interattivi per l'analisi, il reporting, il data mining e la modellazione predittiva.
  • IBM SPSS: offre analisi statistiche avanzate, una vasta libreria di algoritmi di machine learning, analisi del testo, estensibilità open source, integrazione con big data e implementazione senza soluzione di continuità nelle applicazioni.

I data scientist acquisiscono inoltre competenze nell'utilizzo di piattaforme di trattamento dei big data, come Apache Spark, il framework open source Apache Hadoop e i database NoSQL. Sono anche esperti di un'ampia gamma di strumenti di visualizzazione dei dati, tra cui i semplici strumenti grafici inclusi nelle applicazioni di presentazione aziendale e nei fogli di calcolo (come Microsoft Excel), gli strumenti di visualizzazione commerciali costruiti ad hoc come Tableau e IBM Cognos e gli strumenti open source come D3.js (una libreria JavaScript per la creazione di visualizzazioni interattive dei dati) e RAW Graphs. Per la creazione di modelli di machine learning, i data scientist si rivolgono spesso a diversi framework come PyTorch, TensorFlow, MXNet e Spark MLib.

Data la ripida curva di apprendimento nella data science, molte aziende stanno cercando di accelerare il ritorno sull'investimento per i progetti di AI; spesso hanno difficoltà ad assumere i talenti necessari per realizzare il pieno potenziale del progetto di data science. Per colmare questa lacuna, si rivolgono a piattaforme di data science e machine learning (DSML) multipersona, dando vita al ruolo di "citizen data scientist".

Le piattaforme DSML multipersona utilizzano automazione, portali self-service e interfacce utente a uso limitato di codice o nullo in modo che le persone con poca o nessuna esperienza nella tecnologia digitale o nella data science esperta possano creare valore aziendale utilizzando la data science e il machine learning. Queste piattaforme supportano anche i data scientist esperti offrendo anche un'interfaccia più tecnica. L'utilizzo di una piattaforma DSML multipersona incoraggia la collaborazione in tutta l'azienda.

Data science e cloud computing

Il cloud computing scala la data science fornendo l'accesso a ulteriore potenza di elaborazione, storage e altri strumenti necessari per i progetti di data science.

Poiché la data science utilizza spesso set di dati di grandi dimensioni, gli strumenti in grado di adattarsi alle dimensioni dei dati sono incredibilmente importanti, in particolare per i progetti sensibili al fattore tempo. Le soluzioni di storage su cloud, come i data lake, forniscono l'accesso all'infrastruttura di storage, e sono in grado di inserire ed elaborare grandi volumi di dati con facilità. Questi sistemi di storage offrono flessibilità agli utenti finali, consentendo loro di creare cluster di grandi dimensioni secondo necessità. Possono anche aggiungere nodi di calcolo incrementali per accelerare i processi di trattamento dei dati, consentendo all'azienda di fare compromessi a breve termine per un risultato più ampio a lungo termine. Le piattaforme cloud in genere hanno diversi modelli di prezzo, ad esempio per uso o abbonamenti, per soddisfare le esigenze dell'utente finale, sia che si tratti di una grande azienda o di una piccola startup.

Le tecnologie open source sono ampiamente utilizzate nei set di strumenti di data science. Quando sono ospitati nel cloud, i team non devono installarli, configurarli, conservarli o aggiornarli localmente. Diversi provider di cloud, tra cui IBM Cloud, offrono anche kit di strumenti preconfigurati che consentono ai data scientist di costruire modelli senza codifica, democratizzando ulteriormente l'accesso alle innovazioni tecnologiche e agli insight sui dati. 

casi d'uso della data science

Le aziende possono sbloccare numerosi benefici offerti dalla data science. I casi d'uso più comuni includono l'ottimizzazione dei processi attraverso l'automazione intelligente e il miglioramento del targeting e della personalizzazione per migliorare l'esperienza del cliente (CX). Tuttavia, esempi più specifici includono:

Ecco alcuni casi d'uso rappresentativi per la data science e l'intelligenza artificiale:

  • Una banca internazionale fornisce servizi di prestito più rapidi con un'app mobile utilizzando modelli di rischio di credito basati su algoritmi di machine learning e un'architettura di cloud computing ibrido potente e sicura.
  • Una società di elettronica sta sviluppando sensori stampati in 3D potenti per guidare i veicoli senza conducente di domani. La soluzione si basa su strumenti di data science e analytics per migliorare le sue funzionalità di rilevamento di oggetti in tempo reale.
  • Un provider di soluzioni RPA (Robotic Process Automation) ha sviluppato una soluzione cognitiva di business process mining che riduce i tempi di gestione degli incidenti tra il 15% e il 95% per le aziende dei propri clienti. La soluzione è addestrata per comprendere il contenuto e il sentiment delle e-mail dei clienti, indirizzando i team di assistenza a dare priorità a quelle più pertinenti e urgenti.
  • Un'azienda di tecnologia multimediale digitale ha creato una piattaforma di analytics del destinatario che consente ai suoi clienti di vedere cosa sta coinvolgendo il pubblico televisivo mentre gli viene offerta una gamma crescente di canali digitali. La soluzione utilizza analytics approfonditi e machine learning per raccogliere insight in tempo reale sul comportamento degli spettatori.
  • Un dipartimento di polizia urbana ha creato strumenti statistici per l'analisi degli incidenti per aiutare gli ufficiali a comprendere quando e dove distribuire le risorse per prevenire il crimine. La soluzione basata sui dati crea report e dashboard per aumentare la consapevolezza situazionale per gli agenti sul campo.
  • Shanghai Changjiang Science and Technology Development ha utilizzato la tecnologia IBM Watson per creare una piattaforma di valutazione medica basata sull'AI in grado di analizzare le cartelle cliniche esistenti per categorizzare i pazienti in base al rischio di ictus e di prevedere la percentuale di successo dei diversi piani di trattamento.
Soluzioni correlate
watsonx.ai

Sperimenta con i foundation model e crea automaticamente modelli di machine learning nel nostro studio di prossima generazione per builder AI.

Esplora watsonx.ai Guarda la demo interattiva
IBM Watson Studio

Sincronizza DevOps e ModelOps. Crea e scala modelli di AI con le tue app cloud-native su quasi tutti i cloud.

Esplora subito IBM Watson Studio
AI spiegabile

Aumenta l'interpretabilità dell'AI. Valuta e mitiga i rischi dell'AI. Implementa l'AI con fiducia e sicurezza.

Maggiori informazioni su Explainable AI
AutoAI

Crea e addestra velocemente modelli predittivi di alta qualità. Semplifica la gestione del ciclo di vita dell'AI.

Esplora l'AutoAI
Risorse Autostrade per l’Italia

Autostrade per l'Italia ha implementato diverse soluzioni IBM per una trasformazione digitale completa al fine di migliorare il modo in cui monitora e mantiene la sua vasta gamma di asset infrastrutturali.

MANA Community

MANA Community ha collaborato con IBM Garage per creare una piattaforma AI in grado di estrarre enormi volumi di dati ambientali da più canali digitali e migliaia di fonti.

Il pensiero architettonico nel selvaggio West della data science

Avere una completa libertà nella scelta dei linguaggi di programmazione, degli strumenti e dei framework migliora il pensiero creativo e l'evoluzione.

Fai il passo successivo

Scala i workload AI per tutti i tuoi dati, ovunque, con IBM watsonx.data, uno storage dei dati adatto allo scopo costruito su un'architettura open data lakehouse.

Esplora watsonx.data Prenota una demo live